Ubuntu下部署Nutch

最新推荐文章于 2017-04-16 17:33:12 发布

rikey111

最新推荐文章于 2017-04-16 17:33:12 发布

阅读量1.2k

点赞数

分类专栏： Nutch 文章标签： Nutch Tomcat Ubuntu

本文链接：https://blog.csdn.net/rikey111/article/details/9200679

版权

Nutch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天利用Nutch实现了一个搜索引擎，并且将它部署在了tomcat之下，感觉非常之爽，把过程写在这以免以后忘记了。

部署到tomcat下需要一个war包，好像Nutch1.2之后的版本就不提供这个war包了，据说是跟solr结合部署了，没研究过。

下了一个1.2的Nutch，部署到Linux上很简单，解压后，把路径添加到PATH中就可以了。

我是把它放在/usr/local/nutch/nutch-1.2/下面的。在/etc/profile文件的后面添加

export NUTCH_HOME=/usr/local/nutch/nutch-1.2

export PATH=$NUTCH_HOME/bin:$PATH

重启系统后才会生效。

注意一点，在这之前需要在linux上安装jdk，并且设置上JAVA_HOME环境变量。

tomcat的部署同样简单，解压后就可以用了，都不需要设置环境变量，只是运行脚本的时候需要找到脚本的路径。

下面看看Nutch 1.2的配置。

首先在NUTCH_HOME下建一个文件夹 urls，在这个文件夹下面用一个文件写入要爬的网址,例如 http://www.xxx.com

再配置NUTCH_HOME下conf文件夹中nutch-site.xml文件，

在configuration属性中加入

<property>
  <name>http.agent.name</name>
  <value>xxx</value>          #自己填的名字，这个应该是告诉被爬的服务器，是什么在爬它
  <description>HTTP 'User-Agent' request header. MUST NOT be empty -
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

    http.robots.agents
    http.agent.description
    http.agent.url
    http.agent.email
    http.agent.version

  and set their values appropriately.

  </description>
</property>

修改conf下的 crawl-urlfilter.txt文件，找到MY.DOMAIN.NAME，将它修改成你要爬的网站地址

+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/修改为+^http://([a-z0-9]*/.)*xxx.com/

这下就可以在命令行下执行抓取命令了：

nutch crawl urls/xxx -dir crawled -depth 2 -threads 5 -topN 500 >& crwal.log

-dir 表示抓取的结果存放的文件夹

-depth表示抓取深度，这里是2层

-threads表示爬虫的线程数

-topN表示每一层爬行的URL数量

>& 表示把输出重定向到日志中。

等待程序运行完成，结果就在-dir指定的目录中了。

修改conf下的nutch-site.xml文件夹，添加上searcher.dir属性

<name>searcher.dir</name> #注意是searcher.dir，而不是search.dir，刚开始我写错了，检索结果任何关键字都是0，一直没找到原因

<value>/usr/local/nutch/nutch-1.2/crawled</value> #就是前面-dir指定的文件夹路径

这样在命令行下用如下命令就可以进行检索了

nutch org.apache.nutch.searcher.NutchBean 查询关键字

===================tomcat 部署结果=======================================

下面就要在tomcat中将结果展示出来

将nutch解压后的 nutch-1.2.war包拷到 tomcat的webapp下，tomcat会自动把它解压成nutch-1.2文件夹。

修改文件夹下 ./WEB-INF/classes下的nutch-site.xml

同上面一样，指定结果存放的路径

<name>searcher.dir</name> #注意是searcher.dir，而不是search.dir，刚开始我写错了，检索结果任何关键字都是0，一直没找到原因

<value>/usr/local/nutch/nutch-1.2/crawled</value> #就是前面-dir指定的文件夹路径

启动tomcat，在浏览器中输入地址 http://xxx.xxx.xxx.xxx:8080/nutch-1.2就可以进入检索界面，输入检索关键字查询，就会返回结果了。

注意，网址后面要跟上webapp下的文件夹名，才能定位到nutch资源，刚开始我输入 http://xxx.xxx.xxx.xxx:8080，总是找不到nutch。

tomcat中要把tomcat的conf下的server.xml修改，找到这个xml中8080端口的属性描述，在redirectPort后面加上URIEncoding=“UTF-8”

useBodyEncodingForURI=“true” 这两个值。这样tomcat才会支持UTF-8，在检索的时候输入中文不会出现乱码。

在部署tomcat的过程中，有段时间启动，tomcat的log中的localhosts日志中老是打印，hadoop在初始化一个bean的时候，xml格式不对或者丢失，搞了很久，郁闷了，采用简单暴力的方法，直接把整个war包替换了。重新部署，搞定。

rikey111

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Ubuntu下部署Nutch

今天利用Nutch实现了一个搜索引擎，并且将它部署在了tomcat之下，感觉非常之爽，把过程写在这以免以后忘记了。部署到tomcat下需要一个war包，好像Nutch1.2之后的版本就不提供这个war包了，据说是跟solr结合部署了，没研究过。下了一个1.2的Nutch，部署到Linux上很简单，解压后，把路径添加到PATH中就可以了。我是把它放在/usr/local/nutch/nu
复制链接

扫一扫

专栏目录