Nutch2.3 + Hbase 配置到爬行

准备工作:JDK、Hbase、Ant、Nutch

  1. 安装JDK(JDK8) 如果你已经安装JDK跳过此步骤

$:cd /usr/local

$:wget http://download.oracle.com/otn-pub/java/jdk/8u65-b17/jdk-8u65-linux-x64.tar.gz

$:tar zxvf jdk-8u65-linux-x64.tar.gz

$:mv jdk-8u65-linux-x64 jdk8

配置JAVA环境变量

$:vim ~/.bashrc

在bashrc中添加以下变量

export JAVA_HOME=/usr/local/jdk8
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

$:source ~/.bashrc

输入命令测试是否安装成功

$:java

java

$:javac

javac

如果你看到类似以上两张图,表示OK了



2 安装Hbase(Hbase0.94) 如果你已经安装Hbase跳过此步骤

$:cd /usr/local

$:wget http://archive.apache.org/dist/hbase/hbase-0.94.14/hbase-0.94.14.tar.gz

$:tar zxvf hbase-0.94.14.tar.gz

$:mv hbase-0.94.14.tar.gz hbase

配置Hbase环境变量

$:vim ~/.bashrc

修改bashrc的PATH变量

export $JAVA_HOME/bin:/usr/local/hbase/bin:$PATH

$:source ~/.bashrc

输入命令测试是否安装成功

$:hbase -version

hbase -version

如果你看到类似上图,表示OK了



3 安装Ant 如果你已经安装Ant跳过此步骤

$:cd /usr/local

$:wget http://mirrors.hust.edu.cn/apache//ant/binaries/apache-ant-1.9.6-bin.tar.gz

$:tar zxvf apache-ant-1.9.6-bin.tar.gz

$:mv apache-ant-1.9.6-bin.tar.gz ant

配置Ant环境变量

$:vim ~/.bashrc

修改bashrc的PATH变量

export $JAVA_HOME/bin:/usr/local/hbase/bin:/usr/local/ant/bin:$PATH

$:source ~/.bashrc

输入命令测试是否安装成功

$:ant -version

ant -version

如果你看到类似上图,表示OK了



4 配置Nutch

$:cd /usr/local

$:wget http://124.202.164.16/files/4214000005F0F9BA/mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz

$:tar zxvf apache-nutch-2.3-src.tar.gz

$:mv apache-nutch-2.3-src.tar.gz nutch

$:vim /usr/local/nutch/conf/nutch-site.xml

在nutch-site.xml的configuration标签里加入以下配置

    <property>
        <name>http.agent.name</name>
        <value>*这里写你的爬虫名字*</value>
    </property>
    <property>
        <name>storage.data.store.class</name>
        <value>org.apache.gora.hbase.store.HBaseStore</value>
        <description>Default class for storing data</description>
    </property>

如图所示
default-site.xml


继续,修改regex-urlfilter.txt文件

$:vim /usr/local/nutch/conf/regex-urlfilter.txt

regex-urlfilter.txt
如图所示,注释掉里面的一些正则,为了之后抓取数据看到的效果更好,regex-urlfilter.txt用来过滤抓取网站的URL规则,关于regex-urlfilter.txt的正则语法就不作详细说明,网上一堆,这里就按照这样配置就行了.


$:vim /usr/local/nutch/ivy/ivy.xml

找到下面这行,把注释打开

org="org.apache.gora" name="gora-hbase" rev="0.4" conf="*->default"/>

如图所示
ivy.xml


$:vim /usr/local/nutch/conf/gora.properties

打开gora.properties文件添加以下配置

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

如图所示

gora.properties


在seed.txt中添加要抓取的链接 这里以csdn为例

$:cd /usr/local/nutch/conf/

$:mkdir -p urls

$:cd urls

$:touch seed.txt

$:vim seed.txt

seed.txt


最后开始编译

$:cd /usr/local/nutch/

编译runtime

$:ant runtime

编译完成后

$:cd /usr/local/nutch/runtime/local/bin

抓取

$:./crawl /usr/local/nutch/conf/urls/ numberOfRounds 10

抓取完成后进入hbase shell查看数据

$:hbase shell

查看列表

$:list

查看数据(numberOfRounds_webpage)为表名,以list命令查出的表名为准,这里就以此表名做例子

$:scan 'numberOfRounds_webpage'

抓取数据

OK,Hbase里已经能查到抓取的数据了


  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值