如图,发现笔趣阁的书本URL排列规律是https://www.bigee.cc/book/i/
i的取值范围是[1,180500],for循环遍历这180500个URL解析即可
输入命令创建scrapy 工程
scrapy startproject myspider
cd myspider
scrapy genspider bigee bigee.cc
注:scrapy genspider <爬虫名> <允许爬取的域名>
设置start_urls爬取第一个页面https://www.bigee.cc/book/1/
重写start_requests函数,for循环生成全部书本的请求,交给调度器
对响应进行处理:
在管道中把数据存入description
启用管道
在Settings中设置不遵守机器人协议,设置最大并行请求数为100
设置日志级别为WARNING
启动爬虫,设置记录爬虫状态
scrapy crawl bigee -s JOBDIR=record/spider-1
控制台输出
数据写入txt