nutch0.7.2安装成功


1、设置Nutch的环境变量

  在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:/j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:/j2sdk1.4.2_09。
   
  2、Nutch抓取网站页面前的准备工作

  (1)在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。笔者在此文件中写入如下内容:
   
  
http://blog.csdn.net/fuyangchang
   
  (2)编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:
   
  # accept hosts in MY.DOMAIN.NAME
  +^http://blog.csdn.net/fuyangchang
运行Crawl命令抓取网站内容
   
  3.双击电脑桌面上的Cygwin图标,在命令行窗口中输入:
   
  cd /cygdrive/i/nutch-0.7.1
   
  不明白此命令含义的读者请参见前《细解》一文,然后再输入:
   
  bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
   
   等待大约2分多钟后,程序运行结束。读者会发现在nutch-0.7.1目录下被创建了一个名为crawled的文件夹,同时还生成一个名为 crawl.log的日志文件。利用这一日志文件,我们可以分析可能遇到的任何错误。另外,在上述命令的参数中,dir指定抓取内容所存放的目录, depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数。
4.
启动Tomcat,等nutch.war解压后, 删除nutch.war即可,打开nutch/WEB-INF/classes/nutch-site.xml
加上:
<nutch-conf>
 <property>
   <name>searcher.dir</name>
   <value>D:/nutch-0.7.2/crawled/</value>
 </property>
</nutch-conf>
5.在Tomcat 5.5/webapps/nutch/zh/include 下面新建header.jsp,内容就是复制header.html, 前面加上: <%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:/tomcat/webapps/nutch/search.jsp里面,找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>

6.在Tomcat 5.5/conf/server.xml 找到以下段,并修改
<Connector port="8080"
 maxThreads="150"
minSpareThreads="25"
maxSpareThreads="75"
enableLookups="false"
redirectPort="8443"
acceptCount="100"
debug="0"
 connectionTimeout="20000"
disableUploadTimeout="true"
  URIEncoding="UTF-8" useBodyEncodingForURI="true"
/>
 参考文章:
http://blog.chinaunix.net/u1/43804/showart_383868.html
http://blog.csdn.net/zjzcl/archive/2006/02/01/590537.aspx
http://blog.csdn.net/zjzcl/archive/2006/02/06/593138.aspx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值