Ubuntu下部署Nutch

今天利用Nutch实现了一个搜索引擎,并且将它部署在了tomcat之下,感觉非常之爽,把过程写在这以免以后忘记了。

部署到tomcat下需要一个war包,好像Nutch1.2之后的版本就不提供这个war包了,据说是跟solr结合部署了,没研究过。

下了一个1.2的Nutch,部署到Linux上很简单,解压后,把路径添加到PATH中就可以了。

我是把它放在/usr/local/nutch/nutch-1.2/下面的。在/etc/profile文件的后面添加

export NUTCH_HOME=/usr/local/nutch/nutch-1.2

export PATH=$NUTCH_HOME/bin:$PATH

重启系统后才会生效。

 

注意一点,在这之前需要在linux上安装jdk,并且设置上JAVA_HOME环境变量。

 

tomcat的部署同样简单,解压后就可以用了,都不需要设置环境变量,只是运行脚本的时候需要找到脚本的路径。

 

下面看看Nutch 1.2的配置。

首先在NUTCH_HOME下建一个文件夹 urls,在这个文件夹下面用一个文件写入要爬的网址,例如 http://www.xxx.com

 

再配置NUTCH_HOME下conf文件夹中nutch-site.xml文件,

在configuration属性中加入

<property>
  <name>http.agent.name</name>
  <value>xxx</value>          #自己填的名字,这个应该是告诉被爬的服务器,是什么在爬它
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

    http.robots.agents
    http.agent.description
    http.agent.url
    http.agent.email
    http.agent.version

  and set their values appropriately.

  </description>
</property>

修改conf下的 crawl-urlfilter.txt文件,找到MY.DOMAIN.NAME,将它修改成你要爬的网站地址

+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/修改为+^http://([a-z0-9]*/.)*xxx.com/

 

这下就可以在命令行下执行抓取命令了:

nutch crawl urls/xxx -dir crawled -depth 2 -threads 5 -topN 500 >& crwal.log

-dir 表示抓取的结果存放的文件夹

-depth表示抓取深度,这里是2层

-threads表示爬虫的线程数

-topN表示每一层爬行的URL数量

 

>& 表示把输出重定向到日志中。

 

等待程序运行完成,结果就在-dir指定的目录中了。

修改conf下的nutch-site.xml文件夹,添加上searcher.dir属性

<property>

<name>searcher.dir</name>   #注意是searcher.dir,而不是search.dir,刚开始我写错了,检索结果任何关键字都是0,一直没找到原因

<value>/usr/local/nutch/nutch-1.2/crawled</value>     #就是前面-dir指定的文件夹路径

<property>

这样在命令行下用如下命令就可以进行检索了

nutch org.apache.nutch.searcher.NutchBean 查询关键字

 

 

===================tomcat 部署结果=======================================

下面就要在tomcat中将结果展示出来

将nutch解压后的 nutch-1.2.war包拷到 tomcat的webapp下,tomcat会自动把它解压成nutch-1.2文件夹。

修改文件夹下 ./WEB-INF/classes下的nutch-site.xml

同上面一样,指定结果存放的路径

<property>

<name>searcher.dir</name>   #注意是searcher.dir,而不是search.dir,刚开始我写错了,检索结果任何关键字都是0,一直没找到原因

<value>/usr/local/nutch/nutch-1.2/crawled</value>     #就是前面-dir指定的文件夹路径

<property>

 

启动tomcat,在浏览器中输入地址  http://xxx.xxx.xxx.xxx:8080/nutch-1.2就可以进入检索界面,输入检索关键字查询,就会返回结果了。

注意,网址后面要跟上webapp下的文件夹名,才能定位到nutch资源,刚开始我输入  http://xxx.xxx.xxx.xxx:8080,总是找不到nutch。

tomcat中要把tomcat的conf下的server.xml修改,找到这个xml中8080端口的属性描述,在redirectPort后面加上URIEncoding=“UTF-8”

useBodyEncodingForURI=“true” 这两个值。这样tomcat才会支持UTF-8,在检索的时候输入中文不会出现乱码。

 

在部署tomcat的过程中,有段时间启动,tomcat的log中的localhosts日志中老是打印,hadoop在初始化一个bean的时候,xml格式不对或者丢失,搞了很久,郁闷了,采用简单暴力的方法,直接把整个war包替换了。重新部署,搞定。

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值