nutch集群,威力很大,哈哈!!

今天用公司的服务器测试了一把nutch集群很好很强大!

之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多!

我测试的是用3台虚拟机

每台是8核心cpu 一个6g内存2个4g内存

然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20%

 

之前用8核心6g内存单机爬取 180个网址,深度4层 开启线程50个,爬取1星期没有爬取完,资源占用cpu全部100%,内存占用800M左右

 

所以集群的威力还是很大的,这么一看就可以看出来威力了,所以我打算把这3台再拆成6台,让服务器能够把资源利用到最大,下面要好好研究一下hadoop的存储结构和nutch的具体内容和lucene这块了!

 

下面是我截的图,用集群完成的开始和结束时间,还有搜索了一个关键词的搜索数量,现在研究一下如何用luke去查看

hdfs,所有的数量应该在这个查询数量之上。

 

 

 

 

图1

图2

 

图3 查询结果

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值