Nutch 笔记（二）：Craw more urls and Recrawl(收藏)

最新推荐文章于 2024-07-14 15:39:12 发布

clong1112

最新推荐文章于 2024-07-14 15:39:12 发布

阅读量1.1k

点赞数

文章标签： tomcat webapp url 脚本 merge perl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clong1112/article/details/1666720

版权

原著未明,仅做收藏,谅解.

一：Recrawl
nutch wiki上有现成的script，我们只需要拿来用用即可
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03

把它放在nutch-0.8.1/bin/recrawl.sh，执行

[Copy to clipboard] [ - ]

CODE:

martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/ 2 . 2. 10 1 5

wiki中对参数的说明已经很详细了，没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是

[Copy to clipboard] [ - ]

CODE:

touch $tomcat_dir/WEB-INF/web.xml

让tomcat重新加载webapp,如果你没有使用tomcat，只是recrawl，你修改一下脚本，就把这个参数给去掉吧。

二：Crawl more urls and merge
我们上面只是抓取了一个xici的页面，但是我们的目标不仅仅是一个，而是一系列的，所有我们必须增加新的url进行抓取。

新增news.163.com

[Copy to clipboard] [ - ]

CODE:

mkdir url2
echo [url]http://news.163.com[/url]>url2/163

重新执行我们上面提到的crawl

[Copy to clipboard] [ - ]

CODE:

martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 3 -topN 50

合并我们采用nutch wiki上的脚本 http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。

[Copy to clipboard] [ - ]

CODE:

martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/

传递的两个参数分别是两次crawl的目录

修改tomcat目录下的classes/nutch-site.xml文件，将searcher.dir修改为新的索引目录

[Copy to clipboard] [ - ]

CODE:

perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml

重新加载webapp

[Copy to clipboard] [ - ]

CODE:

touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml

以下是截图
这个是163的

这个是xici的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch 笔记（二）：Craw more urls and Recrawl(收藏)

原著未明,仅做收藏,谅解.一：Recrawlnutch wiki上有现成的script，我们只需要拿来用用即可http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03把它放在nutch-0.8.1/bin/recrawl.sh，执行[Copy to clipb
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。