scrapy实现增量式爬取(1)，超详细

王钧易

于 2024-04-01 17:00:23 发布

阅读量861

点赞数 25

分类专栏： 2024年程序员学习文章标签： scrapy java 前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdsfgj/article/details/137239510

版权

实现爬虫的增量式爬取有两种方法，一是在获得页面解析的内容后判断该内容是否已经被爬取过，二是在发送请求之前判断要被请求的url是否已经被爬取过，前一种方法可以感知每个页面的内容是否发生变化，能获取页面新增或者变化的内容，但是由于要对每个url发送请求，所以速度比较慢，而对网站服务器的压力也比较大，后一种无法获得页面变化的内容，但是因为不用对已经爬取过的url发送请求，所以对服务器压力比较小，速度比较快，适用于爬取新增网页，下面用一个小说网站爬虫的例子来介绍在scrapy中这两种方式的实现

1.要爬取的信息

在scrapy中，信息通过item来封装，这里我定义两个item，一个用于封装每本小说的信息，一个用于封装每个章节的信息

1.BookItem

class BookItem(scrapy.Item):

_id = scrapy.Field() #小说id，用于定位章节信息，章节唯一

novel_Name = scrapy.Field() #小说名称

novel_Writer = scrapy.Field()#小说作者

novel_Type = scrapy.Field()#小说类型

novel_Status = scrapy.Field()#小说状态，连载或者完结

novel_UpdateTime = scrapy.Field()#最后更新时间

novel_Words = scrapy.Field() #总字数

novel_ImageUrl = scrapy.Field()#封面图片

novel_AllClick = scrapy.Field()#总点击

novel_MonthClick = scrapy.Field()#月点击

novel_WeekClick = scrapy.Field()#周点击

novel_AllComm = scrapy.Field()#总推荐

novel_MonthComm = scrapy.Field()#月推荐

novel_WeekComm = scrapy.Field()#周推荐

novel_Url = scrapy.Field()#小说url

novel_Introduction = scrapy.Field()#小说简介

2.ChapterItem

class ChapterItem(scrapy.Item):

chapter_Url = scrapy.Field()#章节url

_id = scrapy.Field()#章节id

novel_Name = scrapy.Field()#小说名称

chapter_Name = scrapy.Field()#章节名称

chapter_Content = scrapy.Field()#内容

novel_ID = scrapy.Field()#小说id

is_Error = scrapy.Field()#是否异常

2.解析信息

这里我是用的是scrapy自带的通用爬虫模块，只需要指定信息解析方式，需要跟进的url就够了

1.指定需要跟进的url和回调函数

allowed_domains = [“23us.so”] #允许爬取的域名

start_urls = [“http://www.23us.so/xiaoshuo/414.html”]#种子url

#跟进的url

rules=(

Rule(LinkExtractor(allow=(“xiaoshuo/\d*.html”)),callback=“parse_book_message”,follow=True),

Rule(LinkExtractor(allow=(“files/article/html/\d*?/\d*?.index.html”)),callback=“parse_book_chapter”,follow=True),

Rule(LinkExtractor(allow=(“files/article/html/\d*?/\d*?/\d*?.html”)),callback=“parse_chapter_content”,follow

最低0.47元/天解锁文章

关注

25
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
scrapy实现增量式爬取(1)，超详细

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄1年

314: 原创

-: 周排名

-: 总排名

21万+: 访问

: 等级

7387: 积分

3188: 粉丝

4132: 获赞

17: 评论

4400: 收藏

私信

关注

热门文章

分类专栏

最新评论

妙用AccessibilityService黑科技实现微信自动加好友拉人进群聊
2301_79245815: 大佬可以做到前端弄个button按钮上面是某个人的名字，绑定点击事件，后端逻辑去打开微信然后搜索这个人的名字实现打视频或者语音功能嘛？
明御运维审计与风险控制系统漏洞复现_明御堡垒机漏洞，满满干货
我还是最爱你的呀。: 不行你也去干传销呗
IDEA 自用主题及字体搭配推荐_idea字体推荐，2024年最新Linux运维高级
Maurii: 字体好可爱，拿了
100 个基本 Python 面试问题第二部分(21-40)，Python开发基础入门教程
CSDN-Ada助手: 非常感谢您分享这么有用的Python面试问题系列，看到您在博客中提到会做视频教程，真的很期待！如果可能的话，您可以考虑添加关于Python虚拟环境的知识，这对于项目管理和隔离不同项目的依赖项非常有帮助。另外，您也可以探讨一下Python的装饰器，这是一个非常强大且有趣的概念。继续努力，期待您更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
07-ServletConfig类，字节跳动历年校招Java面试真题解析
CSDN-Ada助手: 恭喜用户发布了新的博客！看到标题里提到了ServletConfig类和字节跳动历年校招Java面试真题解析，内容一定非常有深度和价值。希望用户能够继续保持创作的热情和耐心，坚持分享自己的学习和经验。下一步可以考虑尝试写一些实际项目的实战经验或者技术分享，让读者能够更直观地感受到技术的应用和实用性。期待用户更多精彩的作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。