nutch-0.9使用手记

 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的系统。下载以后一看代码,目前的代码和我去年看的Nutch-0.7.2的代码已经有本质的变化了,再看不到我熟悉的代码了!

去网上搜索了一下,发现了一篇很好的知道文档,这个给出链接地址

http://wiki.apache.org/nutch/NutchHadoopTutorial

按照这个上面的做,如果你运不差的话应该可以让nutch自己跑起来,而且后面的分布式检索也可以尝试一下,这里把我整个过程出现的问题分享如下:

  1. 0.9版本需要一个叫masters的文件,这个文件的内容存放备用的名字节点,没有也不影响你正常的使用;
  2. 可以把mapred.map.tasks、mapred.reduce.tasks按节点的倍数调大,这样运行速度会更快;
  3. 如果发现节点找不到,这个时候有可能是机器的主机名不对,修改一下就可以了;
  4. hadoop运行的时候需要占用一些端口,如果你不能弄清需要那些端口,就把防火墙打开,在局域网内安全问题不大;
  5. 抓取的时候一定要设置一下nutch-default.xml中的agent,不然它为空的话你将什么都抓取不到;
  6. 在分布式检索的时候,为了防止名字节点既做slave,又做search server,使得search server去分布式文件系统中找index,这个时候按照上面的指导我们在nutch目录下可以再建立一个文件夹,然后在里面也安装一个nutch-0.9,注意这个配置都采用默认的就可以,然后不要调用它的start-all.sh,因为这样会有冲突,你只需要运行bin/nutch server命令就可以了,这样它就可以提供检索服务了;
  7. 那个指示所有search server服务节点的文件一定要叫search-servers.txt,不然nutch找不到其他的。

可能个人最近人品比较高,所以整个过程比较顺利,即使有小问题也只需要自己分析分析就可以很容易解决的,至于其他问题我没有碰到过也不知道,欢迎交流!

另外,在运行过程中,log4j总报异常,也不知道是为什么?

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值