Linux下的Nutch分布式配置与安装

本文详细介绍了如何在Linux系统中配置和安装Nutch分布式搜索引擎,以及与Hadoop的集成。首先讲解了Nutch与Hadoop的关系,然后逐步阐述了Hadoop的安装步骤,接着是Nutch的安装和配置,包括Hadoop环境的适应性调整。在配置完成后,进行了抓取测试,并探讨了Tomcat的配置以实现Nutch的Web前端搜索。最后,解决了可能出现的Tomcat中文问题及提供了通过jar包运行Nutch任务的方法。
摘要由CSDN通过智能技术生成

1.     介绍

本文主要介绍 Linux Nutch 的分布式配置与安装。 Nutch 是著名的开源搜索引擎,由 Nutch 引出了 Apache 另一个著名的项目 Hadoop ,一个类似于 Google MapReduce 架构的高效分布式计算模型。我们基于本实验室已有的 Hadoop 平台,将 Nutch 部署在 Hadoop 之上,利用 MapReduce 进行并行的分布式抓取,将得到的索引文件存在 HDFS 上,使得 Nutch 可以更加高效的运行。本文主要参照了一下几个网页:

1.    http://wiki.apache.org/nutch/NutchHadoopTutorial

2.    http://www.cnblogs.com/wycg1984/archive/2010/06/25/1764926.html

另外,前面的几个网页都是基于 Nutch.0.9 或者 Nutch1.0 的,我们在安装中发现和我们已有的 Hadoop 平台 Hadoop-0.20.2 存在不兼容的问题。我们发现在 Nutch1.1 中已经支持 Hadoop-0.20.2 的版本,主要是在配置文件 conf 下的 hadoop-site.xml 分割成了 core-site.xml hdfs-site.xml mapred-site.xml 三个文件。以下是本文所使用的开源软件:

1.  Nutch-1.1 ( 存放于 //202.38.64.184 softs 目录下的 apache-nutch-1.1-bin)

2.  Hadoop-0.20.2 (已安装)

3.  Apache Tomcat 6.0.29 ( 存放于 //202.38.64.184 softs 目录下的 apache-tomcat-6.0.29.tar )

2 Hadoop 的安装

详见 //202.38.64.184/share/cluster-config/hadoop下的安装脚本 intall_in_lab_cluster.sh

以下是我们的 hadoop 环境:

用户名: hadoop

安装目录: /localshare/hadoop/install/hadoop

Master 节点:

Ip: 192.168.99.6   hostname: node-hp-dl-06

Slave 节点:

Ip: 192.168.99.9   hostname: node-hp-dp-09

Ip: 192.168.99.11   hostname: node-r630-1

Ip: 192.168.99.12  hostname: node-r630-2

安装目录下的配置文件夹 conf 用符号链接指向共享存储上的 /share/cluster-config/hadoop/conf 目录。

格式化 namenode 指令 ;

       Bin/hadoop namenode –format

启动:

       Bin/start-all.sh

关闭:

       Bin/stop-all.sh

通过 Web 查看 hadoop 运行情况:

       HDFS:

              192.168.99.6:50070

       MapReduce:

              192.168.99.6:50030

3.  Nutch 的安装

在已经安装 Hadoop 的情况下,只要将 Nutch 文件夹下的 conf 目录中文配置文件配置好,就可以通过 Nutch 中的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值