2019年06月_咖啡或浮云

07月 06月 05月 04月 03月

原创 CrawlSpider模板

CrawlSpider的功能只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是在之前的基础之上增加了新的功能，可以定义爬取的url的规则，以后scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。创建CrawlSpider爬虫如果想要创建CrawlSpider...

2019-06-14 19:00:37 239

原创 Scrapy基础

Scrapy框架架构什么是Scrapy框架scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。Scrapy架构图各模块的功能：...

2019-06-07 09:55:59 381

原创 selenium+chromdriver获取AJAX数据

注：本文参考了网易云知了课堂课件笔记。AJAX定义AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的...

2019-06-03 17:52:47 9712

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人