动态爬虫[闲谈1]

开题介绍~

打算开一个“闲谈”专题,定期(不定期?)收录一些自己觉得有趣的题,记录解题过程~

本期题目

一共有十个时刻变化的页面,他们的更新频率不尽相同,需要给出这十个页面的频率排序

来源:千里码 → 传送门

正经

分析题目,大概就是需要做两件事情:比对页面是否相同、调整爬取频率

需要比对同一页面差别的话,那可以考虑计算整个页面的md5值,这样就可以直接看出差别。谈优化的话,我觉得可以去除所有对人眼识别不相关的元素之后进行md5,比如页面空格。

爬取频率调整,感觉可以考虑参考TCP拥塞控制那样,初期成倍增长,当页面变化时停止成倍增长,转而变成1.1倍的增和减。

十个页面的话,开十个进程嘛,妥妥的:p 然后就放着跑等结果吧,2333

闲谈

感觉爬虫的频率适配是个不错的想法,每个页面使用不同的频率爬取,节约资源。不过对于垂直爬虫这一类别,个人感觉还是不适用,还是根据网站量级制定频率比较稳妥= =

诶,这么想的话,垂直爬虫只要能够制定一个网站的判重规则不就行了么,嘿嘿= =哇,这能怎么做。。。。。。

本期代码链接 → 传送门

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值