基于hadoop的网络爬虫设计1.0

一。用hadoop作网络爬虫的原因

爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoop是首选。

hadoop提供了自动的集群管理,任务分配,负载平衡。因此在hadoop之上构建爬虫程序可以省略这部分代码,这将极大的减少代码量。

二。主要思路

1.遍历整个网络的算法:网页之间是通过link连接起来的,link把所有的页面连接成了一个网,这个网可以用数据结构里的图来表示,用遍历图的算法就可以遍历整个网络了。

2任务切分:以站点为单位来切分爬取工作,每个站点对应一个map任务。系统要维护一个全局站点表,站点表用来记录那些站点已经爬取过,那些尚未爬取,那些正在爬取,并且还要向其中加入新发现的站点。

3.map阶段:每个map完成一个站点的爬取任务,同时把发现的新站点加入到全局站点表。生成的<k,v>就是<url ,url对应的页面数据>。此时要维护一个url的hashtable用来记录已经爬取到的页面,并防止相同的页面被重复爬取。

4.reduce阶段:主要任务是把所有的<url ,url对应的页面数据>存储到hdfs货hbase种去。

三。心得

爬虫程序并不是hadoop典型应用场景。hadoop一般应用于海量数据分析和挖掘,这种场景中首先存在着海量输入数据,并且最终得产出物事一个数据量很小的分析数据,在map过程中对海量数据进行划分成小块并进行分布式处理,在reduce的过程中将大量的中间数据进行合并,并最终得到较小的分析结果。

爬虫程序几乎没有输入,并且最终的产出物是海量数据,这和hadoop的典型应用完全是相反的。在爬虫程序的应用场景中reduce阶段几乎是多余的,几乎可以把reduce阶段的工作放到map的末尾来做。

虽然不符合hadoop的典型应用场景,但爬虫程序一样可以从hadoop上获得极大的好处(自动的集群管理,任务分配,负载平衡)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值