二,nutch 1.0 web应用部署

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接[url]http://zolomon.iteye.com[/url]).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料[url]http://www.google.com/profiles/solomon.royarr[/url]

a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
使用winrar打开.war文件,修改里边的配置文件.

b)修改WEB-INF\classes\crawl-urlfilter.txt
-[?*!@=]
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
-.
改为
+[?*!@=]
+.*(/[^/]+)/[^/]+\1/[^/]+\1/
+.

c)修改nutch-site.xml,在<configuration></configuration>内增加这样两属性:
<property>
<name>searcher.dir</name>
<value>file:///d:/indexes/</value>
</property>
<property>
<name>http.agent.name</name>
<value>RIDER</value>
</property>
<property>
<name>hadoop.job.ugi</name>
<value>rider(读者的计算机名),iamsolomon(读者的计算机密码)</value>
</property>
searcher.dir的值是我们抓取的内容生成的索引所存放的位置,
http.agent.name属性写个有效的url或者计算机名即可
第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错.
此2属性均可根据自己的情况配置.

然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图:
[img]http://www.iteye.com/upload/attachment/97026/d3eb33c3-f234-3b8e-b431-fd4e8331ef5e.gif[/img]
[img]http://www.iteye.com/upload/attachment/97028/a852a7e4-0af4-334c-a020-2a60d9ab6385.gif[/img]
nutch 1.0 的快照,貌似比以前的漂亮多了:
[img]http://www.iteye.com/upload/attachment/97041/8547c89b-ae4b-37d4-84b5-d06f02567203.gif[/img]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值