Nutch1.7学习笔记1：基本环境搭建及使用

最新推荐文章于 2017-05-09 02:27:00 发布

超越自己

最新推荐文章于 2017-05-09 02:27:00 发布

阅读量541

点赞数

分类专栏： solr java nutch

java 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

0 篇文章 0 订阅

订阅专栏

Nutch1.7学习笔记1：基本环境搭建及使用

作者：雨水，时间：2013-10-31博客地址：http://blog.csdn.net/gobitan

说明：Nutch有两个主版本1.x和2.x，它们的主要区别是2.x引入了Gora作为存储抽象层，从而支持各种NoSQL数据库，如HBase，Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。

环境准备：

一台Ubuntu Linux服务器，可以装在VMware虚拟机中。
下载Nutch1.7版本的二进制包，地址：http://www.apache.org/dyn/closer.cgi/nutch/，选择一个站点进入后，下载1.7目录下的apache-nutch-1.7-bin.zip.
下载Solr3.6版本的二进制包，地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/，选择一个站点进入后，下载3.6.2目录下的apache-solr-3.6.2.zip .

安装配置Nutch：

将apache-solr-3.6.2.zip解压，然后执行如下命令：

$mv apache-nutch-1.7nutch

$cd nutch

$bin/nutch

上面两行命令是进入解压后的目录，然后执行nutch命令。如果出现” Usage: nutch COMMAND”的帮助提示，则表明安装成功。如果有问题，可以检查看bin/nutch是否有可执行权限，如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。

2. 配置JAVA_HOME环境变量

执行” echo $JAVA_HOME”如果返回空，则表明该变量未设置。需执行如下命令：

$cd

$vi .bashrc

然后将如下文本加入到.bashrc的末尾，注意：需将JAVA_HOME的值替换为你的Javajdk的路径。如果没有安装JDK，建议安装OracleJDK.

export JAVA_HOME=/home/dennis/jdk1.6.0_37

然后执行如下命令刷新当前的环境变量：

$. .bashrc

3. 配置Nutch

（1）配置conf/nutch-default.xml

$cd nutch

$ vi conf/nutch-default.xml

将http.agent.name属性的值改为如下：

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

(2) 创建urls相关配置：

$ mkdir urls

$cd urls

$ touch seed.txt

然后将你希望爬的网址放入seed.txt中，这里以” http://nutch.apache.org”为例。

(3) 编辑conf/regex-urlfilter.txt将原有的

# accept anything else

+.

替换为你以正则表达式匹配的你希望爬的地址。例如：

+^http://([a-z0-9]*\.)*nutch.apache.org/

这是用正则表达式来限制爬虫的范围仅限于nutch.apache.org这个域。

运行Nutch:

$bin/nutch crawl urls -dir crawl -depth 3 -topN5

运行上述命令执行爬虫。

与 Solr集成：

1. 安装：将apache-solr-3.6.2.zip解压，然后执行如下命令：

$mv apache-solr-3.6.2 solr

$cd solr/example

$ java -jar start.jar

2. 验证：分别访问如下两个链接，需都能正常访问才可。

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp

3. 与Nutch集成：

(1) 拷贝schema.xml配置文件

将 nutch/conf/schema-solr.xml拷贝至 solr/example/solr/conf/下，并重命名为schema.xml(覆盖原有的)。

(2) 执行”java -jar start.jar”重启Solr，需先进入solr/example目录。

(3) 执行Solr索引命令，如下：

bin/nutch solrindex http://127.0.0.1:8983/solr/crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

注意：执行时需先进入nutch目录。

(4) 访问http://192.168.128.129:8983/solr/admin/测试，可以在Query String中输入” GettingStarted”进行查询，可以得到两个结果。

还可以集成中文分词，以便更好地支持中文。

集成中文分词相关配置如下：

schema.xml

<fieldType name="text"class="solr.TextField">

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

solrconfig.xml

<lib dir="../../contrib/ik/lib"regex=".*\.jar" />

同时需下载对应的jar包放至相应的目录。

重要：去solr里面的logs 有报错 unknown field 'host' 要吧collection1 下面的schema.xml 放到conf里面。。覆盖之前老的就可以了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch1.7学习笔记1：基本环境搭建及使用

Nutch1.7学习笔记1：基本环境搭建及使用作者：雨水，时间：2013-10-31博客地址：http://blog.csdn.net/gobitan说明：Nutch有两个主版本1.x和2.x，它们的主要区别是2.x引入了Gora作为存储抽象层，从而支持各种NoSQL数据库，如HBase，Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。