Nutch2.3.1 hbase配置加使用。

ivy必须配合ant

安装ant

#yum -y install ant


#mkdir /home/nutch-hbase
#cd /home/nutch-hbase
#tar zxvf apache-nutch-2.3.1-src.tar.gz
#mv apache-nutch-2.3.1-src.tar.gz nutch


(可选)修改默认下载目录为C:\Users\用户名\.ivy2\catch目录
修改$NUTCH_HOME/ivy/ivysettings.xml文件中更换包位置
<ivysettings>
 <caches defaultCacheDir="E:\\work\\maven\\libs"/>


(可选)$NUTCH_HOME/ivy/ivysettings.xml修改为aliyun服务器地址,加快下载速度
<property name="repo.maven.org"
    value="http://maven.aliyun.com/nexus/content/groups/public/"
  


  override="false"/>


$NUTCH_HOME/ivy/ivy.xml
 <dependency org="org.apache.gora" name="gora-hbase" rev="0.6.1" conf="*->default" />
 <dependency org="org.apache.hbase" name="hbase-common" rev="0.98.8-hadoop2" conf="*->default" 


/>


(必须)安装Hbase(Hbase0.98.8)
#cd /home
#wget http://archive.apache.org/dist/hbase/hbase-0.98.8/hbase-0.98.8-hadoop2-bin.tar.gz
#tar zxvf hbase-0.98.8-hadoop2-bin.tar.gz
#mv hbase-0.98.8-hadoop2-bin.tar.gz hbase


(必须)配置Hbase环境变量,针对所有用户
#vi /etc/profile
在最下边,添加下列内容:
HBASE = /home/hbase-0.98.8-hadoop2/
PATH = $HBASE/bin:$PATH
保存退出后,立即生效
#source /etc/profile


(可选)输入命令测试是否安装成功
#hbase -version


(必须)启动HBase
#cd $HBASE
#./bin/start-hbase.sh


(可选)停止HBase
#./bin/stop-hbase.sh


(必须)选择数据库文件,添加以下配置
#vi $NUTCH_HOME/conf/gora.properties
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore


(必须)增加内容如下:
$NUTCH_HOME/conf/nutch-site.xml
<configuration>
<property>
    <name>http.agent.name</name>
    <value>mypachong</value>
</property>
<property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
    <description>Default class for storing data</description>
</property>
</configuration>


(必须)创建种子文件列表
#cd $NUTCH_HOME/
#mkdir -p urls
#cd urls
#touch seed.txt
#vi seed.txt
http://mil.news.sina.com.cn


(必须)最后开始编译
#cd $NUTCH_HOME
#ant clean 
#ant


(必须)编译完成后,执行抓取
#cd $NUTCH_HOME/
#./$NUTCH_HOME/runtime/local/bin/crawl urls/ mytest 10
另一种执行方式
#./$NUTCH_HOME/runtime/local/bin/nutch crawl urls mytest -depth 3 -topN 5




(必须)抓取完成后进入hbase shell查看数据
#hbase shell
查看列表
>list


查看数据(mytest_webpage)为表名,查询所有数据
>scan 'mytest_webpage'


获取一行记录
>get 'mytest_webpage', 'row1'


退出HBase Shell
>quit


删除数据库
>disable 'test'
>drop 'test'
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值