今天利用Nutch实现了一个搜索引擎,并且将它部署在了tomcat之下,感觉非常之爽,把过程写在这以免以后忘记了。
部署到tomcat下需要一个war包,好像Nutch1.2之后的版本就不提供这个war包了,据说是跟solr结合部署了,没研究过。
下了一个1.2的Nutch,部署到Linux上很简单,解压后,把路径添加到PATH中就可以了。
我是把它放在/usr/local/nutch/nutch-1.2/下面的。在/etc/profile文件的后面添加
export NUTCH_HOME=/usr/local/nutch/nutch-1.2
export PATH=$NUTCH_HOME/bin:$PATH
重启系统后才会生效。
注意一点,在这之前需要在linux上安装jdk,并且设置上JAVA_HOME环境变量。
tomcat的部署同样简单,解压后就可以用了,都不需要设置环境变量,只是运行脚本的时候需要找到脚本的路径。
下面看看Nutch 1.2的配置。
首先在NUTCH_HOME下建一个文件夹 urls,在这个文件夹下面用一个文件写入要爬的网址,例如 http://www.xxx.com
再配置NUTCH_HOME下conf文件夹中nutch-site.xml文件,
在configuration属性中加入
<property>
<name>http.agent.name</name>
<value>xxx</value> #自己填的名字,这个应该是告诉被爬的服务器,是什么在爬它
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
修改conf下的 crawl-urlfilter.txt文件,找到MY.DOMAIN.NAME,将它修改成你要爬的网站地址
+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/修改为+^http://([a-z0-9]*/.)*xxx.com/
这下就可以在命令行下执行抓取命令了:
nutch crawl urls/xxx -dir crawled -depth 2 -threads 5 -topN 500 >& crwal.log
-dir 表示抓取的结果存放的文件夹
-depth表示抓取深度,这里是2层
-threads表示爬虫的线程数
-topN表示每一层爬行的URL数量
>& 表示把输出重定向到日志中。
等待程序运行完成,结果就在-dir指定的目录中了。
修改conf下的nutch-site.xml文件夹,添加上searcher.dir属性
<property>
<name>searcher.dir</name> #注意是searcher.dir,而不是search.dir,刚开始我写错了,检索结果任何关键字都是0,一直没找到原因
<value>/usr/local/nutch/nutch-1.2/crawled</value> #就是前面-dir指定的文件夹路径
<property>
这样在命令行下用如下命令就可以进行检索了
nutch org.apache.nutch.searcher.NutchBean 查询关键字
===================tomcat 部署结果=======================================
下面就要在tomcat中将结果展示出来
将nutch解压后的 nutch-1.2.war包拷到 tomcat的webapp下,tomcat会自动把它解压成nutch-1.2文件夹。
修改文件夹下 ./WEB-INF/classes下的nutch-site.xml
同上面一样,指定结果存放的路径
<property>
<name>searcher.dir</name> #注意是searcher.dir,而不是search.dir,刚开始我写错了,检索结果任何关键字都是0,一直没找到原因
<value>/usr/local/nutch/nutch-1.2/crawled</value> #就是前面-dir指定的文件夹路径
<property>
启动tomcat,在浏览器中输入地址 http://xxx.xxx.xxx.xxx:8080/nutch-1.2就可以进入检索界面,输入检索关键字查询,就会返回结果了。
注意,网址后面要跟上webapp下的文件夹名,才能定位到nutch资源,刚开始我输入 http://xxx.xxx.xxx.xxx:8080,总是找不到nutch。
tomcat中要把tomcat的conf下的server.xml修改,找到这个xml中8080端口的属性描述,在redirectPort后面加上URIEncoding=“UTF-8”
useBodyEncodingForURI=“true” 这两个值。这样tomcat才会支持UTF-8,在检索的时候输入中文不会出现乱码。
在部署tomcat的过程中,有段时间启动,tomcat的log中的localhosts日志中老是打印,hadoop在初始化一个bean的时候,xml格式不对或者丢失,搞了很久,郁闷了,采用简单暴力的方法,直接把整个war包替换了。重新部署,搞定。