并行爬虫设计相关1

最新推荐文章于 2024-02-22 23:52:55 发布

Rockics

最新推荐文章于 2024-02-22 23:52:55 发布

阅读量3k

点赞数

分类专栏：互联网技术搜索引擎文章标签：网络互联网扩展

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rockics/article/details/6543783

版权

搜索引擎同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

互联网技术

3 篇文章 0 订阅

订阅专栏

挑战：

1.如何避免重复性。不同的处理线程（进程）如何协调，使得不重复下载页面。

2.网页质量。每一个处理进程，如何能过全局的考虑网页的质量，因为他们彼此之间不知道对方存在，所以进程间了解的网页重要性有局部性。

3.通信带宽。为了解决上述问题，进程间需要通信，然而随着规模的加大，通信花销也变得异常的大。

如果解决了上述问题，则并行爬虫要比单个爬虫更有诱惑力：

1.可扩展性。随着规模的加大，单个爬虫不可能完成整个互联网页面的抓取。并行都不太可能，哈哈。

2.基于网络地理分布的抓取。并行爬虫中的任意一个，只是抓取地理位置上相近的网站。例如，德国的负责欧洲的，中国的负责亚洲的，这样可以减小网络延迟。这样的做法，也可以有效的减小网络带宽负载。

基于地理位置的抓取，事后这些网页也必须转换到一个所谓的central location，以协助建立一个所谓的central index。但是，有很多办法使得这个转换的代价远远小于所谓的全网漫游：

1.压缩技术

2.只发送本次跟上次的difference

3.根据central index的需求，只是发送摘要。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。