Windows下安装Nutch

 J2SE
Tomcat
Cygwin
Nutch

1 安装J2SE
2 安装Tomcat
3 安装Cygwin
4 Nutch解压

配置 nutch
配置抓取过滤器,确定要抓取的网站地址
    打开NUTCH_HOME/conf/crawl-urlfilter.txt
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*/.)*baidu.com/
    说明: 其中baidu.com为要搜索的域名
   
 配置抓取的起始网站地址
        在NUTCH_HOME中建立文件url       文件内容:http://www.gucas.ac.cn/

./bin/nutch crawl url -dir datas -depth 2 -threads 4 >& crawl.log

配置tomcat
删除ROOT目录,将nutch-0.7.2.war解压缩到ROOT目录中       (可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)   配置文件:TOMCAT_HOME/webapps/ROOT/WEB-INF/classes/nutch-site.xml
//重点设置部分
<nutch-conf>    <property>        <name>searcher.dir</name>        <value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>    </property></nutch-conf>
在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。<value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>部分,你可以自由修改。
接下来修改tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可:  <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"               enableLookups="false" redirectPort="8443" acceptCount="100"                connectionTimeout="20000" disableUploadTimeout="true"                URIEncoding="UTF-8" useBodyEncodingForURI="true" />
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
       重启tomcat服务器       IE中输入http://localhost:8080

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值