nutch1.2分布式搜索配置

在前些天关于nutch+hadoop的基础知识之上,今天专门学习了下nutch1.2分布式搜索的配置知识,在此做一下总结,望对大学有益。

1、假设你已抓取数据成功,取名抓取下来数据文件夹名称是:crawl_data,至于如何抓取数据,前边两篇已有。

2、在前边nutch+hadoop分布式抓取数据的配置的情况下,修改nutch安装文件中的conf/core-site.xml和nutch-site.xml,具体如下: 

           (1)由于本文讲解的建立在本地系统中的分布式搜索,故将core-site.xml中的fs.default.name改value为local,即本地系统的意思。

          (2)修改conf/nutch-site.xml中的searcher.dir,将其改为指向存放搜索服务器ip:port的文件的文件夹,我处为存放在/usr/nutch1.2/searchDir/search-servers.txt,而且search-servers.txt中的内容格式如下:

                 master  9999

                 master 8888

                slave1  9999

                slave1 8888

      即在这个四个搜索服务器中进行搜索。master为namenode结点,也是namenode结点,slave1和slave1都是数据结点

3、以上只是配置好文件,还需要开启搜索服务器的对应端口,正如上边小图所以,命令如下:

           ./nutch server port_number /usr/nutch1.2/crawl_data(此处为抓取数据后存放的位置,根据每个搜索服务器不同而不同,建议放在同等的位置,方便),在search-servers.txt的里边有几个搜索服务器就要对应几个这样的命令,当然是在相应的机器上运行才行,而且要求搜索服务器上的nutch和master服务器上的nutch配置要完全一致,要不然的话,数据是搜不到的。

4、经过,以上三步,搭建完成,可以进行命令行和浏览器形式的测试,注意浏览器中的core-site.xml和nutch-site.xml要和nutch/conf下的要守全一致,要不然web形式也是搜不到对应结果的。若为web形式只开一个或少于指定多个的搜索服务器是可以的,但是要是用命令行的话,必须全部打开search-servers.txt指定的搜索服务器端口,才能正常进行查询。

如有你人品比较好的话,经过上数四步,就应该搭成了nutch的分布式数据,试试吧~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值