上一篇文章我没详细YY一下p2p方式的爬虫,实在是因为限制太大,不是技术问题,商业运作不好操作;
这东西其实不应该说是爬虫,而应该是一个利用P2P来进行信息交换的一个东西
简单介绍一下:
1:每个需要做爬虫的公司,部署一个p2p的node,此node负责:接受外部推送过来的URL,并且将此URL 1)发给别的node,2)对此URL自行响应;
2:内容提供商每有一篇新文章,选择几个node push 此URL即可;
这样的好处是:
1:爬虫不要费劲去爬了,等着URL即可;
2:内容提供商不要防爬了,随便将url push给几个node即可;
3: 利用P2P快速传播,并且任何一个人的负载都很小;
另外:push可以增加类别,正文,时间,作者,摘要,tag等信息;
这是一个理想情况,退一步可以这样:
有3家做爬虫的小公司,各自做了个不伦不类的爬虫(反正就是没有专门做搜索引擎那种公司那么牛的爬虫),各自部署个node;各自将自己发现的URL发给另外两家,作为交换用;然后进行滚雪球;一旦滚大了,就很难停止了;
总之吧,我觉得这样的爬虫几乎是完美的,爬虫不费劲,内容提供商也不费劲;还能及时获得新URL;
操作起来嘛....冷启动非常难...各公司之间的信任和付出收获比,可能不同,导致....