这篇文章接上一节:nutch系列1——nutch简单介绍
准备工作:
1、JDK环境,参考:http://blog.csdn.net/enson16855/article/details/8708574
2、ant环境,参考:http://blog.csdn.net/enson16855/article/details/51375855
关于nutch的介绍,这个就不用多说啦,这边讲解的是nutch-2.3.1版本的编译安装
1、下载nutch-2.3.1:
地址:http://mirror.bit.edu.cn/apache/nutch/2.3.1/apache-nutch-2.3.1-src.tar.gz
也可以通过命令的形式直接下载:
wget http://mirror.bit.edu.cn/apache/nutch/2.3.1/apache-nutch-2.3.1-src.tar.gz
2、解压nutch(目录:/opt/work/)
tar zxvf apache-nutch-2.3.1-src.tar.gz
3、修改 $NUTCH_HOME/conf/nutch-site.xml 在 configuration节点中增加如下内容:
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>
4、修改 $NUTCH_HOME/ivy/ivy.xml 去掉如下注释,启用 gora-hbase:
<!-- Uncomment this to use HBase as Gora backend. -->
<dependency org="org.apache.gora" name="gora-hbase" rev="0.6.1" conf="*->default" />
5、修改$NUTCH_HOME/conf/gora.properties ,添加如下内容:
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
6、配置仓库地址
这边解释一下:如果不配置国内的镜像,使用官网的镜像,会出现不明的异常。保险起见
修改ivy中配置的maven仓库地址,具体方法:$NUTCH_HOME/ivy/ivysettings.xml 找到如下代码:
<property name="repo.maven.org"
value="http://maven.oschina.net/content/groups/public/"
override="false"/>
7、接下来回到$NUTCH_HOME 目录
执行:
ant runtime
需要等待比较久的时间,因为要去远程下载依赖jar包
出现以上 SUCCESSFUL表示编译成功…
8、配置环境变量
编辑/etc/profile
vim /etc/profile
加入以下代码:
export NUTCH_HOME=/opt/work/apache-nutch-2.3.1/runtime/local
export PATH=$NUTCH_HOME/bin:$PATH