爬虫
孤独猿
Hello World
展开
-
scrapy_redis学习(分布式爬虫)
scrapy_redis在scrapy的基础上有了更强大的功能: request去重,爬虫持久化,实现分布式 与scrapy标准写法的区别: 1、继承的类不同 2、增加redis_key 3、没有start_urls 一、RedisSpider scrapy genspider suning suning.com # 继承自RedisSpider from scrapy_redis.spid...原创 2019-04-13 01:34:51 · 107 阅读 · 0 评论 -
scrapy框架学习
scrapy的工作流程 各部件的功能描述: Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。URL队列 Downloader(下载器):负责下载Scrap...原创 2019-04-11 16:58:08 · 140 阅读 · 0 评论 -
scrapy框架学习
一、创建scrapy项目 scrapy startproject [项目名称] scrapy startproject test0409 二、创建爬虫Spider(Ps: 在创建的项目下面创建spider cd test0409) 1、继承scrapy.Spider类 scrapy genspider [爬虫名] [域名] scrapy genspider tieba tieba.b...原创 2019-04-09 15:05:37 · 149 阅读 · 0 评论