我YY的爬虫

本文探讨了一个理想的P2P爬虫系统,其中每个节点都能及时通知文章更新,以此实现更高效的实时搜索。然而,作者指出谷歌的pubsubhubbub未能普及可能是因为广播更新成本过高。接着,讨论了现实中的爬虫策略,包括列表页URL发现、更新周期计算、下载工具的使用以及如何通过信息熵预测更新以节省资源。作者承认这是个人的设想,希望能得到专业人士的指导。
摘要由CSDN通过智能技术生成

在技术角度来看,最好的爬虫应该是一个P2P方式的通知文章更新,大家都能及时的获知文章更新,然后转告别人;

这样的话:每个做爬虫就变成了:成为p2p中的一个node,然后:将获得的更新进行选择性的响应;内容提供商,随便向一些node发出文件更新通知即可;

实时搜索就向前跨出了一大步了;

google的pubsubhubhub,为啥就没推动起来?是因为注册的人太多,广播更新代价太高?


没在搜索引擎公司呆过,不知道人家怎么做的;自己YY一个,抛砖引玉,以解我多年心头疑惑;


好吧,来点现实的爬虫吧;


就分这三个部分吧
  1. 列表页发现
  2. 从列表页种发现URL
  3. 列表页更新周期的计算

之所以强调列表页,是为了区分普通的文本阅读页面,这两者一个是为了导航,另外一个则是为了详细阅读;当然阅读页面也能拿出URL出来,但是这不是它存在的目的;故我认为列表页才是爬虫的重点;


第一部分列表页如何发现:
  1. 列表页识别算法;
  2. 全站下载工具,或者自己写代码;
  3. 可以利用第2步来滚雪球似的方式来发现;

第二部分从列表页种发现新URL:
  1. 自然是下载;
  2. 拿下链接;
  3. 排重ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值