nutch1.2分布式搜索配置

最新推荐文章于 2023-12-16 10:39:02 发布

周天亮

最新推荐文章于 2023-12-16 10:39:02 发布

阅读量594

点赞数

文章标签： hadoop java linux nutch 云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/erliang20088/article/details/45789743

版权

在前些天关于nutch+hadoop的基础知识之上，今天专门学习了下nutch1.2分布式搜索的配置知识，在此做一下总结，望对大学有益。

1、假设你已抓取数据成功，取名抓取下来数据文件夹名称是：crawl_data,至于如何抓取数据，前边两篇已有。

2、在前边nutch+hadoop分布式抓取数据的配置的情况下，修改nutch安装文件中的conf/core-site.xml和nutch-site.xml，具体如下：

(1)由于本文讲解的建立在本地系统中的分布式搜索，故将core-site.xml中的fs.default.name改value为local,即本地系统的意思。

(2)修改conf/nutch-site.xml中的searcher.dir,将其改为指向存放搜索服务器ip:port的文件的文件夹，我处为存放在/usr/nutch1.2/searchDir/search-servers.txt,而且search-servers.txt中的内容格式如下：

master 9999

master 8888

slave1 9999

slave1 8888

即在这个四个搜索服务器中进行搜索。master为namenode结点，也是namenode结点，slave1和slave1都是数据结点

3、以上只是配置好文件，还需要开启搜索服务器的对应端口，正如上边小图所以，命令如下：

./nutch server port_number /usr/nutch1.2/crawl_data(此处为抓取数据后存放的位置，根据每个搜索服务器不同而不同，建议放在同等的位置，方便)，在search-servers.txt的里边有几个搜索服务器就要对应几个这样的命令，当然是在相应的机器上运行才行，而且要求搜索服务器上的nutch和master服务器上的nutch配置要完全一致，要不然的话，数据是搜不到的。

4、经过，以上三步，搭建完成，可以进行命令行和浏览器形式的测试，注意浏览器中的core-site.xml和nutch-site.xml要和nutch/conf下的要守全一致，要不然web形式也是搜不到对应结果的。若为web形式只开一个或少于指定多个的搜索服务器是可以的，但是要是用命令行的话，必须全部打开search-servers.txt指定的搜索服务器端口，才能正常进行查询。

如有你人品比较好的话，经过上数四步，就应该搭成了nutch的分布式数据，试试吧~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch1.2分布式搜索配置

在前些天关于nutch+hadoop的基础知识之上，今天专门学习了下nutch1.2分布式搜索的配置知识，在此做一下总结，望对大学有益。1、假设你已抓取数据成功，取名抓取下来数据文件夹名称是：crawl_data,至于如何抓取数据，前边两篇已有。2、在前边nutch+hadoop分布式抓取数据的配置的情况下，修改nutch安装文件中的conf/core-site.xml和nutch-sit
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。