1、设置Nutch的环境变量
在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:/j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:/j2sdk1.4.2_09。
2、Nutch抓取网站页面前的准备工作
(1)在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。笔者在此文件中写入如下内容:
http://blog.csdn.net/fuyangchang
(2)编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:
# accept hosts in MY.DOMAIN.NAME
+^http://blog.csdn.net/fuyangchang
运行Crawl命令抓取网站内容
3.双击电脑桌面上的Cygwin图标,在命令行窗口中输入:
cd /cygdrive/i/nutch-0.7.1
不明白此命令含义的读者请参见前《细解》一文,然后再输入:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
等待大约2分多钟后,程序运行结束。读者会发现在nutch-0.7.1目录下被创建了一个名为crawled的文件夹,同时还生成一个名为 crawl.log的日志文件。利用这一日志文件,我们可以分析可能遇到的任何错误。另外,在上述命令的参数中,dir指定抓取内容所存放的目录, depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数。
4.启动Tomcat,等nutch.war解压后, 删除nutch.war即可,打开nutch/WEB-INF/classes/nutch-site.xml
加上:
<nutch-conf>
6.在Tomcat 5.5/conf/server.xml 找到以下段,并修改
<Connector port="8080"
在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:/j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:/j2sdk1.4.2_09。
2、Nutch抓取网站页面前的准备工作
(1)在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。笔者在此文件中写入如下内容:
http://blog.csdn.net/fuyangchang
(2)编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:
# accept hosts in MY.DOMAIN.NAME
+^http://blog.csdn.net/fuyangchang
运行Crawl命令抓取网站内容
3.双击电脑桌面上的Cygwin图标,在命令行窗口中输入:
cd /cygdrive/i/nutch-0.7.1
不明白此命令含义的读者请参见前《细解》一文,然后再输入:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
等待大约2分多钟后,程序运行结束。读者会发现在nutch-0.7.1目录下被创建了一个名为crawled的文件夹,同时还生成一个名为 crawl.log的日志文件。利用这一日志文件,我们可以分析可能遇到的任何错误。另外,在上述命令的参数中,dir指定抓取内容所存放的目录, depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数。
4.启动Tomcat,等nutch.war解压后, 删除nutch.war即可,打开nutch/WEB-INF/classes/nutch-site.xml
加上:
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>D:/nutch-0.7.2/crawled/</value>
</property>
</nutch-conf>
5.在Tomcat 5.5/webapps/nutch/zh/include 下面新建header.jsp,内容就是复制header.html, 前面加上: <%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:/tomcat/webapps/nutch/search.jsp里面,找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>
5.在Tomcat 5.5/webapps/nutch/zh/include 下面新建header.jsp,内容就是复制header.html, 前面加上: <%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:/tomcat/webapps/nutch/search.jsp里面,找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>
6.在Tomcat 5.5/conf/server.xml 找到以下段,并修改
<Connector port="8080"
maxThreads="150"
minSpareThreads="25"
maxSpareThreads="75"
enableLookups="false"
redirectPort="8443"
acceptCount="100"
debug="0"
connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true"
/>
参考文章:
http://blog.chinaunix.net/u1/43804/showart_383868.html
http://blog.csdn.net/zjzcl/archive/2006/02/01/590537.aspx
http://blog.csdn.net/zjzcl/archive/2006/02/06/593138.aspx
http://blog.chinaunix.net/u1/43804/showart_383868.html
http://blog.csdn.net/zjzcl/archive/2006/02/01/590537.aspx
http://blog.csdn.net/zjzcl/archive/2006/02/06/593138.aspx