- 博客(3)
- 收藏
- 关注
原创 CrawlSpider模板
CrawlSpider的功能只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是在之前的基础之上增加了新的功能,可以定义爬取的url的规则,以后scrapy碰到满足条件的url都进行爬取,而不用手动的yield Request。创建CrawlSpider爬虫如果想要创建CrawlSpider...
2019-06-14 19:00:37 239
原创 Scrapy基础
Scrapy框架架构什么是Scrapy框架scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。Scrapy架构图各模块的功能:...
2019-06-07 09:55:59 381
原创 selenium+chromdriver获取AJAX数据
注:本文参考了网易云知了课堂课件笔记。AJAX定义AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的...
2019-06-03 17:52:47 9712
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人