我YY的爬虫

最新推荐文章于 2021-02-20 11:37:00 发布

一路奔跑

最新推荐文章于 2021-02-20 11:37:00 发布

阅读量1.7k

点赞数

文章标签： url 下载工具优化 etag p2p 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/renfengxing/article/details/7095329

版权

本文探讨了一个理想的P2P爬虫系统，其中每个节点都能及时通知文章更新，以此实现更高效的实时搜索。然而，作者指出谷歌的pubsubhubbub未能普及可能是因为广播更新成本过高。接着，讨论了现实中的爬虫策略，包括列表页URL发现、更新周期计算、下载工具的使用以及如何通过信息熵预测更新以节省资源。作者承认这是个人的设想，希望能得到专业人士的指导。

摘要由CSDN通过智能技术生成

在技术角度来看，最好的爬虫应该是一个P2P方式的通知文章更新，大家都能及时的获知文章更新，然后转告别人；

这样的话：每个做爬虫就变成了：成为p2p中的一个node，然后：将获得的更新进行选择性的响应；内容提供商，随便向一些node发出文件更新通知即可；

实时搜索就向前跨出了一大步了；

google的pubsubhubhub，为啥就没推动起来？是因为注册的人太多，广播更新代价太高？

没在搜索引擎公司呆过，不知道人家怎么做的；自己YY一个，抛砖引玉，以解我多年心头疑惑；

好吧，来点现实的爬虫吧；

就分这三个部分吧

列表页发现
从列表页种发现URL
列表页更新周期的计算

之所以强调列表页，是为了区分普通的文本阅读页面，这两者一个是为了导航，另外一个则是为了详细阅读；当然阅读页面也能拿出URL出来，但是这不是它存在的目的；故我认为列表页才是爬虫的重点；

第一部分列表页如何发现：

列表页识别算法；
全站下载工具，或者自己写代码；
可以利用第2步来滚雪球似的方式来发现；

第二部分从列表页种发现新URL：

自然是下载；
拿下链接；
排重ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。