nutch 【配置与运行】

1、在运行Nutch之前,jdk必须已经安装配置好

2、设置NUTCH_JAVA_HOME为 jdk的安装主目录

3、设置 Nutch-site.xml 的Http.agent.name 属性

4、创建 待抓取的URL 文件

5、修改crawl-urlfilter.txt文件

6、运行命令bin/nutch crawl url.txt   .......(开始抓取,具体参数自己设定)

7、修改Nutch-site.xml 文件,添加searcher.dir 属性 为 存储抓取数据的目录

8、通过命令行查询:bin/nutch org.apache.nutch.searcher.NutchBean  [待查询的关键词]

9、通过tomcat查询,解压tomcat,将tomcat 的webapps安装目录下的ROOT目录删除(或改为另外一个名字),然后新建一个ROOT

     目录,将nutch安装目录下的Nutch-*.war文件解压,将解压后的文件夹中的文件拷贝到ROOT目录中,修改ROOT目录中WEB-INF/classes文件夹中的Nutch-site文件,添加searcher.dir属性为存放抓取数据的目录。

(注:如果不修改其他文件,由Nutch-*.war解压后得到的文件需要放到ROOT 目录中才能运行)

参考网址: http://wiki.apache.org/nutch/Nutch_-_The_Java_Search_Engine

 

nutch 的分布式配置运行 参考网址:http://wiki.apache.org/nutch/NutchHadoopTutorial

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值