使用Scrapy爬取笔趣阁全部小说标题和简介

Captain_Thomas_L

于 2024-04-29 10:49:37 发布

阅读量435

点赞数 2

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Captain_Thomas_L/article/details/138069793

版权

如图，发现笔趣阁的书本URL排列规律是https://www.bigee.cc/book/i/

i的取值范围是[1,180500],for循环遍历这180500个URL解析即可

输入命令创建scrapy 工程

scrapy startproject myspider
cd myspider
scrapy genspider bigee bigee.cc

注:scrapy genspider <爬虫名> <允许爬取的域名>

设置start_urls爬取第一个页面https://www.bigee.cc/book/1/

重写start_requests函数，for循环生成全部书本的请求，交给调度器

对响应进行处理：

在管道中把数据存入description

启用管道

在Settings中设置不遵守机器人协议，设置最大并行请求数为100

设置日志级别为WARNING

启动爬虫，设置记录爬虫状态

scrapy crawl bigee -s JOBDIR=record/spider-1

控制台输出

数据写入txt

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。