爬虫
Hanpeng Chen
公众号:【代码视界】和【前端极客技术】,分别侧重于分享python机器学习和前端两个方向的内容。
个人博客:http://www.chenhanpeng.com/
混迹于代码江湖的程序猿一枚,涉足前端、大数据领域,对后端、AI略有了解。
展开
-
Scrapy入门教程实例
ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。scrapy的整体框架如下所示: Scrapy主要包含了以下几个组件:引擎(Scrapy):用来处理整个系统的数据流,触发事务(框架核心)。 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的...原创 2018-07-23 22:15:40 · 11423 阅读 · 14 评论 -
Scrapy-redis分布式爬虫
在上一篇文章:Scrapy入门教程实例 简单介绍了Scrapy以及用Scrapy创建一个爬虫入门项目,但Scrapy是一个通用的爬虫框架,多个spider不能共享待爬取的队列,因此不支持分布式。Scrapy-redis 本文要介绍的Scrapy-redis,是一个以redis为基础的Scrapy组件,能够更方便地实现Scrapy分布式爬取。 Sc...原创 2019-02-27 00:12:45 · 472 阅读 · 0 评论