ivy必须配合ant
安装ant
#yum -y install ant#mkdir /home/nutch-hbase
#cd /home/nutch-hbase
#tar zxvf apache-nutch-2.3.1-src.tar.gz
#mv apache-nutch-2.3.1-src.tar.gz nutch
(可选)修改默认下载目录为C:\Users\用户名\.ivy2\catch目录
修改$NUTCH_HOME/ivy/ivysettings.xml文件中更换包位置
<ivysettings>
<caches defaultCacheDir="E:\\work\\maven\\libs"/>
(可选)$NUTCH_HOME/ivy/ivysettings.xml修改为aliyun服务器地址,加快下载速度
<property name="repo.maven.org"
value="http://maven.aliyun.com/nexus/content/groups/public/"
override="false"/>
$NUTCH_HOME/ivy/ivy.xml
<dependency org="org.apache.gora" name="gora-hbase" rev="0.6.1" conf="*->default" />
<dependency org="org.apache.hbase" name="hbase-common" rev="0.98.8-hadoop2" conf="*->default"
/>
(必须)安装Hbase(Hbase0.98.8)
#cd /home
#wget http://archive.apache.org/dist/hbase/hbase-0.98.8/hbase-0.98.8-hadoop2-bin.tar.gz
#tar zxvf hbase-0.98.8-hadoop2-bin.tar.gz
#mv hbase-0.98.8-hadoop2-bin.tar.gz hbase
(必须)配置Hbase环境变量,针对所有用户
#vi /etc/profile
在最下边,添加下列内容:
HBASE = /home/hbase-0.98.8-hadoop2/
PATH = $HBASE/bin:$PATH
保存退出后,立即生效
#source /etc/profile
(可选)输入命令测试是否安装成功
#hbase -version
(必须)启动HBase
#cd $HBASE
#./bin/start-hbase.sh
(可选)停止HBase
#./bin/stop-hbase.sh
(必须)选择数据库文件,添加以下配置
#vi $NUTCH_HOME/conf/gora.properties
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
(必须)增加内容如下:
$NUTCH_HOME/conf/nutch-site.xml
<configuration>
<property>
<name>http.agent.name</name>
<value>mypachong</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>
</configuration>
(必须)创建种子文件列表
#cd $NUTCH_HOME/
#mkdir -p urls
#cd urls
#touch seed.txt
#vi seed.txt
http://mil.news.sina.com.cn
(必须)最后开始编译
#cd $NUTCH_HOME
#ant clean
#ant
(必须)编译完成后,执行抓取
#cd $NUTCH_HOME/
#./$NUTCH_HOME/runtime/local/bin/crawl urls/ mytest 10
另一种执行方式
#./$NUTCH_HOME/runtime/local/bin/nutch crawl urls mytest -depth 3 -topN 5
(必须)抓取完成后进入hbase shell查看数据
#hbase shell
查看列表
>list
查看数据(mytest_webpage)为表名,查询所有数据
>scan 'mytest_webpage'
获取一行记录
>get 'mytest_webpage', 'row1'
退出HBase Shell
>quit
删除数据库
>disable 'test'
>drop 'test'