nutch0.9配置说明

nutch不同版本的配置好像细微有点差别,我下载的版本是0.9,配置步骤如下:
首先需要安装Cygwin具体步骤参考
http://dev2dev.cnblogs.com/archive/2006/02/01/324638.html
如果嫌下载镜像太大了,也可以下载一个不到1M的安装程序,进行网络安装.
1.配置jdk tamcat的环境变量
2.配值nutch环境变量
NUTCH_JAVA_HOME=jdk的路径
3.在nutch根目录下面建立文件夹urls并建立文件url.txt写入你要爬取网页地址
http://www.sohu.com
修改conf/crawl-urlfilter.txt文件为
# accept hosts in MY.DOMAIN.NAME
+^http://www.sohu.com/
修改conf/nutch-site.xml文件为
<property>
     <name>http.agent.name</name>
     <value>*</value>
</property>

4、运行Crawl命令抓取网站内容
 双击电脑桌面上的Cygwin图标,在命令行窗口中输入:
 cd d:/nutch-0.9
  进入你安装nutch-0.9的根目录下面后,输入命令:
 bin/nutch crawl urls -dir crawl -depth 3 -topN 50
crawl是抓取命令。urls参数是存放抓取起始点的目录,-dir参数说明了抓取后的存储目录,
-depth参数说明了抓取的层级深度,-threads是线程数,而-topN说明了一个层级抓取网页的数量。
Tomcat的发布运行
将nutch-0.9下面有nutch-0.9.war,拷贝到Tomcat/webapps下,可以直接用winrar解压到此目录下,我是用Tomcat启动后解压的,解压文件夹名为:nutch
打开nutch/WEB-INF/classes下nutch-site.xml文件,将
<configuration></configuration>改为
<configuration>
<property>
          <name>searcher.dir</name>
          <value>D:/nutch-0.9/crawl</value>
</property>
</configuration>
配置的索引路径,此路径配置不对,可能会遇到在查询时显示结果为0.
5.为了支持中文,修改 Tomcat 的 server.xml 文件的 connnector:
<Connector port="8080"
         maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
         enableLookups="false" redirectPort="8443" acceptCount="100"
         connectionTimeout="20000" disableUploadTimeout="true"
       URIEncoding="UTF-8" useBodyEncodingForURI="true" />
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值