1. 介绍
本文主要介绍 Linux 下 Nutch 的分布式配置与安装。 Nutch 是著名的开源搜索引擎,由 Nutch 引出了 Apache 另一个著名的项目 Hadoop ,一个类似于 Google 的 MapReduce 架构的高效分布式计算模型。我们基于本实验室已有的 Hadoop 平台,将 Nutch 部署在 Hadoop 之上,利用 MapReduce 进行并行的分布式抓取,将得到的索引文件存在 HDFS 上,使得 Nutch 可以更加高效的运行。本文主要参照了一下几个网页:
1. http://wiki.apache.org/nutch/NutchHadoopTutorial
2. http://www.cnblogs.com/wycg1984/archive/2010/06/25/1764926.html
另外,前面的几个网页都是基于 Nutch.0.9 或者 Nutch1.0 的,我们在安装中发现和我们已有的 Hadoop 平台 Hadoop-0.20.2 存在不兼容的问题。我们发现在 Nutch1.1 中已经支持 Hadoop-0.20.2 的版本,主要是在配置文件 conf 下的 hadoop-site.xml 分割成了 core-site.xml , hdfs-site.xml 和 mapred-site.xml 三个文件。以下是本文所使用的开源软件:
1. Nutch-1.1 ( 存放于 //202.38.64.184的 softs 目录下的 apache-nutch-1.1-bin)
2. Hadoop-0.20.2 (已安装)
3. Apache Tomcat 6.0.29 ( 存放于 //202.38.64.184的 softs 目录下的 apache-tomcat-6.0.29.tar )
2 . Hadoop 的安装
详见 //202.38.64.184/share/cluster-config/hadoop下的安装脚本 intall_in_lab_cluster.sh 。
以下是我们的 hadoop 环境:
用户名: hadoop
安装目录: /localshare/hadoop/install/hadoop
Master 节点:
Ip: 192.168.99.6 hostname: node-hp-dl-06
Slave 节点:
Ip: 192.168.99.9 hostname: node-hp-dp-09
Ip: 192.168.99.11 hostname: node-r630-1
Ip: 192.168.99.12 hostname: node-r630-2
安装目录下的配置文件夹 conf 用符号链接指向共享存储上的 /share/cluster-config/hadoop/conf 目录。
格式化 namenode 指令 ;
Bin/hadoop namenode –format
启动:
Bin/start-all.sh
关闭:
Bin/stop-all.sh
通过 Web 查看 hadoop 运行情况:
HDFS:
192.168.99.6:50070
MapReduce:
192.168.99.6:50030
3. Nutch 的安装
在已经安装 Hadoop 的情况下,只要将 Nutch 文件夹下的 conf 目录中文配置文件配置好,就可以通过 Nutch 中的