再YY一下P2P的爬虫吧

上一篇文章我没详细YY一下p2p方式的爬虫,实在是因为限制太大,不是技术问题,商业运作不好操作;

这东西其实不应该说是爬虫,而应该是一个利用P2P来进行信息交换的一个东西

简单介绍一下:
1:每个需要做爬虫的公司,部署一个p2p的node,此node负责:接受外部推送过来的URL,并且将此URL 1)发给别的node,2)对此URL自行响应;
2:内容提供商每有一篇新文章,选择几个node push 此URL即可;

这样的好处是:
1:爬虫不要费劲去爬了,等着URL即可;
2:内容提供商不要防爬了,随便将url push给几个node即可;
3: 利用P2P快速传播,并且任何一个人的负载都很小;

另外:push可以增加类别,正文,时间,作者,摘要,tag等信息;

这是一个理想情况,退一步可以这样:
有3家做爬虫的小公司,各自做了个不伦不类的爬虫(反正就是没有专门做搜索引擎那种公司那么牛的爬虫),各自部署个node;各自将自己发现的URL发给另外两家,作为交换用;然后进行滚雪球;一旦滚大了,就很难停止了;

总之吧,我觉得这样的爬虫几乎是完美的,爬虫不费劲,内容提供商也不费劲;还能及时获得新URL;


操作起来嘛....冷启动非常难...各公司之间的信任和付出收获比,可能不同,导致....


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值