在技术角度来看,最好的爬虫应该是一个P2P方式的通知文章更新,大家都能及时的获知文章更新,然后转告别人;
这样的话:每个做爬虫就变成了:成为p2p中的一个node,然后:将获得的更新进行选择性的响应;内容提供商,随便向一些node发出文件更新通知即可;
实时搜索就向前跨出了一大步了;
google的pubsubhubhub,为啥就没推动起来?是因为注册的人太多,广播更新代价太高?
没在搜索引擎公司呆过,不知道人家怎么做的;自己YY一个,抛砖引玉,以解我多年心头疑惑;
好吧,来点现实的爬虫吧;
- 列表页发现
- 从列表页种发现URL
- 列表页更新周期的计算
之所以强调列表页,是为了区分普通的文本阅读页面,这两者一个是为了导航,另外一个则是为了详细阅读;当然阅读页面也能拿出URL出来,但是这不是它存在的目的;故我认为列表页才是爬虫的重点;
第一部分列表页如何发现:
- 列表页识别算法;
- 全站下载工具,或者自己写代码;
- 可以利用第2步来滚雪球似的方式来发现;
第二部分从列表页种发现新URL:
- 自然是下载;
- 拿下链接;
- 排重ÿ