基于hadoop的网络爬虫设计1.0

最新推荐文章于 2023-01-04 16:15:28 发布

hp_hp_hp_hp

最新推荐文章于 2023-01-04 16:15:28 发布

阅读量554

点赞数

一。用hadoop作网络爬虫的原因

爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据，这个数据量一般是P byte级，至少也是T byte级，因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚，从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛，hadoop本身已经接近成熟。因此hadoop是首选。

hadoop提供了自动的集群管理，任务分配，负载平衡。因此在hadoop之上构建爬虫程序可以省略这部分代码，这将极大的减少代码量。

二。主要思路

1.遍历整个网络的算法：网页之间是通过link连接起来的，link把所有的页面连接成了一个网，这个网可以用数据结构里的图来表示，用遍历图的算法就可以遍历整个网络了。

2任务切分：以站点为单位来切分爬取工作，每个站点对应一个map任务。系统要维护一个全局站点表，站点表用来记录那些站点已经爬取过，那些尚未爬取，那些正在爬取，并且还要向其中加入新发现的站点。

3.map阶段：每个map完成一个站点的爬取任务，同时把发现的新站点加入到全局站点表。生成的<k,v>就是<url ,url对应的页面数据>。此时要维护一个url的hashtable用来记录已经爬取到的页面，并防止相同的页面被重复爬取。

4.reduce阶段：主要任务是把所有的<url ,url对应的页面数据>存储到hdfs货hbase种去。

三。心得

爬虫程序并不是hadoop典型应用场景。hadoop一般应用于海量数据分析和挖掘，这种场景中首先存在着海量输入数据，并且最终得产出物事一个数据量很小的分析数据，在map过程中对海量数据进行划分成小块并进行分布式处理，在reduce的过程中将大量的中间数据进行合并，并最终得到较小的分析结果。

爬虫程序几乎没有输入，并且最终的产出物是海量数据，这和hadoop的典型应用完全是相反的。在爬虫程序的应用场景中reduce阶段几乎是多余的，几乎可以把reduce阶段的工作放到map的末尾来做。

虽然不符合hadoop的典型应用场景，但爬虫程序一样可以从hadoop上获得极大的好处（自动的集群管理，任务分配，负载平衡）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于hadoop的网络爬虫设计1.0

一。用hadoop作网络爬虫的原因爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据，这个数据量一般是P byte级，至少也是T byte级，因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚，从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛，hadoop本身已经接近成熟。因此hadoop是
复制链接

扫一扫

hp_hp_hp_hp CSDN认证博客专家 CSDN认证企业博客

码龄12年

0: 原创

100万+: 周排名

52万+: 总排名

553: 访问

: 等级

5: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

基于hadoop的网络爬虫设计1.0 554

分类专栏

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。