nutch0.7.2安装成功

最新推荐文章于 2024-09-26 19:01:02 发布

fuyangchang

最新推荐文章于 2024-09-26 19:01:02 发布

阅读量993

点赞数

分类专栏： nutch 文章标签： tomcat jdk include java windows jsp

本文链接：https://blog.csdn.net/fuyangchang/article/details/1839831

版权

nutch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、设置Nutch的环境变量

　　在Windows系统的环境变量设置中，增加NUTCH_JAVA_HOME变量，并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:/j2sdk1.4.2_09，因此将NUTCH_JAVA_HOME的值设为D:/j2sdk1.4.2_09。

　　2、Nutch抓取网站页面前的准备工作

　　（1）在Nutch的安装目录中建立一个名为url.txt的文本文件，文件中写入要抓取网站的顶级网址，即要抓取的起始页。笔者在此文件中写入如下内容：

　　 http://blog.csdn.net/fuyangchang

　　（2）编辑conf/crawl-urlfilter.txt文件，修改MY.DOMAIN.NAME部分:

　　# accept hosts in MY.DOMAIN.NAME
　　+^http://blog.csdn.net/fuyangchang
运行Crawl命令抓取网站内容

　　3.双击电脑桌面上的Cygwin图标，在命令行窗口中输入：

　　cd /cygdrive/i/nutch-0.7.1

　　不明白此命令含义的读者请参见前《细解》一文，然后再输入：

　　bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log

　　等待大约2分多钟后，程序运行结束。读者会发现在nutch-0.7.1目录下被创建了一个名为crawled的文件夹，同时还生成一个名为 crawl.log的日志文件。利用这一日志文件，我们可以分析可能遇到的任何错误。另外，在上述命令的参数中，dir指定抓取内容所存放的目录， depth表示以要抓取网站顶级网址为起点的爬行深度，threads指定并发的线程数。
4.启动Tomcat，等nutch.war解压后，删除nutch.war即可，打开nutch/WEB-INF/classes/nutch-site.xml
加上：
<nutch-conf>

<name>searcher.dir</name>

<value>D:/nutch-0.7.2/crawled/</value>

</property>

</nutch-conf>
5.在Tomcat 5.5/webapps/nutch/zh/include 下面新建header.jsp，内容就是复制header.html，前面加上： <%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:/tomcat/webapps/nutch/search.jsp里面，找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>

6.在Tomcat 5.5/conf/server.xml 找到以下段，并修改
<Connector port="8080"

maxThreads="150"

minSpareThreads="25"

maxSpareThreads="75"

enableLookups="false"

redirectPort="8443"

acceptCount="100"

debug="0"

connectionTimeout="20000"

disableUploadTimeout="true"

URIEncoding="UTF-8" useBodyEncodingForURI="true"

参考文章：
http://blog.chinaunix.net/u1/43804/showart_383868.html
http://blog.csdn.net/zjzcl/archive/2006/02/01/590537.aspx
http://blog.csdn.net/zjzcl/archive/2006/02/06/593138.aspx