使用Scrapy爬取笔趣阁全部小说标题和简介

最新推荐文章于 2024-07-29 15:43:44 发布

Captain_Thomas_L

最新推荐文章于 2024-07-29 15:43:44 发布

阅读量270

点赞数 2

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/captain_thomas_l/article/details/138069793

版权

如图，发现笔趣阁的书本URL排列规律是https://www.bigee.cc/book/i/

i的取值范围是[1,180500],for循环遍历这180500个URL解析即可

输入命令创建scrapy 工程

scrapy startproject myspider
cd myspider
scrapy genspider bigee bigee.cc

注:scrapy genspider <爬虫名> <允许爬取的域名>

设置start_urls爬取第一个页面https://www.bigee.cc/book/1/

重写start_requests函数，for循环生成全部书本的请求，交给调度器

对响应进行处理：

在管道中把数据存入description

启用管道

在Settings中设置不遵守机器人协议，设置最大并行请求数为100

设置日志级别为WARNING

启动爬虫，设置记录爬虫状态

scrapy crawl bigee -s JOBDIR=record/spider-1

控制台输出

数据写入txt

Captain_Thomas_L

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Captain_Thomas_L CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

123万+: 周排名

8万+: 总排名

4775: 访问

: 等级

222: 积分

41: 粉丝

44: 获赞

3: 评论

12: 收藏

私信

关注

热门文章

最新评论

Java压缩流批量压缩文件上传至网盘
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
用Python numpy实现非线性回归
CSDN-Ada助手: 恭喜您在博客上分享了如此有趣的主题“用Python numpy实现非线性回归”！持续创作是非常了不起的，希望您能继续分享更多关于数据分析和机器学习的内容。或许下一步可以尝试介绍一些高级的数据处理技巧或者深入探讨一些机器学习算法的原理呢？期待您更多精彩的文章！
scrapy_redis存数据到redis中文乱码问题
CSDN-Ada助手: 恭喜博主写了第6篇博客！关于scrapy_redis存数据到redis中文乱码问题的探讨非常有价值。建议在下一篇博客中可以尝试探讨如何优化存储数据到redis的方法，或者分享一些关于scrapy_redis的其他问题解决方案。期待您继续创作，为大家带来更多有用的内容！愿您的博客越来越受欢迎！
scrapy框架爬虫报错UnicodeDecodeError
CSDN-Ada助手: 恭喜您写了第三篇博客！对于遇到的scrapy框架爬虫报错UnicodeDecodeError问题，您已经积极解决并分享了经验，非常棒！希望您能继续保持写作的热情和耐心，不断学习和探索，为读者带来更多有价值的内容。在下一步的创作中，或许可以尝试深入探讨一些高级技术或者结合实际案例进行分析，让读者受益更多。期待您的更多精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Pycharm scrapy框架爬取gbk编码方式的网站数据写入txt文件乱码
CSDN-Ada助手: 恭喜用户发布了第四篇博客！看到您在Pycharm scrapy框架中遇到了编码问题并成功解决，实在是太棒了！不过在下一步的创作中，或许可以尝试探索其他编码方式或者使用编码转换工具来避免乱码问题，这样可以提升文章的质量和可读性。期待您的下一篇作品，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。