nutch不同版本的配置好像细微有点差别,我下载的版本是0.9,配置步骤如下:
首先需要安装Cygwin具体步骤参考
http://dev2dev.cnblogs.com/archive/2006/02/01/324638.html
如果嫌下载镜像太大了,也可以下载一个不到1M的安装程序,进行网络安装.
1.配置jdk tamcat的环境变量
2.配值nutch环境变量
NUTCH_JAVA_HOME=jdk的路径
3.在nutch根目录下面建立文件夹urls并建立文件url.txt写入你要爬取网页地址
http://www.sohu.com
修改conf/crawl-urlfilter.txt文件为
# accept hosts in MY.DOMAIN.NAME
+^http://www.sohu.com/
修改conf/nutch-site.xml文件为
<property>
<name>http.agent.name</name>
<value>*</value>
</property>
4、运行Crawl命令抓取网站内容
双击电脑桌面上的Cygwin图标,在命令行窗口中输入:
cd d:/nutch-0.9
进入你安装nutch-0.9的根目录下面后,输入命令:
bin/nutch crawl urls -dir crawl -depth 3 -topN 50
crawl是抓取命令。urls参数是存放抓取起始点的目录,-dir参数说明了抓取后的存储目录,
-depth参数说明了抓取的层级深度,-threads是线程数,而-topN说明了一个层级抓取网页的数量。
Tomcat的发布运行
将nutch-0.9下面有nutch-0.9.war,拷贝到Tomcat/webapps下,可以直接用winrar解压到此目录下,我是用Tomcat启动后解压的,解压文件夹名为:nutch
打开nutch/WEB-INF/classes下nutch-site.xml文件,将
<configuration></configuration>改为
<configuration>
<property>
<name>searcher.dir</name>
<value>D:/nutch-0.9/crawl</value>
</property>
</configuration>
配置的索引路径,此路径配置不对,可能会遇到在查询时显示结果为0.
5.为了支持中文,修改 Tomcat 的 server.xml 文件的 connnector:
<Connector port="8080"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
首先需要安装Cygwin具体步骤参考
http://dev2dev.cnblogs.com/archive/2006/02/01/324638.html
如果嫌下载镜像太大了,也可以下载一个不到1M的安装程序,进行网络安装.
1.配置jdk tamcat的环境变量
2.配值nutch环境变量
NUTCH_JAVA_HOME=jdk的路径
3.在nutch根目录下面建立文件夹urls并建立文件url.txt写入你要爬取网页地址
http://www.sohu.com
修改conf/crawl-urlfilter.txt文件为
# accept hosts in MY.DOMAIN.NAME
+^http://www.sohu.com/
修改conf/nutch-site.xml文件为
<property>
<name>http.agent.name</name>
<value>*</value>
</property>
4、运行Crawl命令抓取网站内容
双击电脑桌面上的Cygwin图标,在命令行窗口中输入:
cd d:/nutch-0.9
进入你安装nutch-0.9的根目录下面后,输入命令:
bin/nutch crawl urls -dir crawl -depth 3 -topN 50
crawl是抓取命令。urls参数是存放抓取起始点的目录,-dir参数说明了抓取后的存储目录,
-depth参数说明了抓取的层级深度,-threads是线程数,而-topN说明了一个层级抓取网页的数量。
Tomcat的发布运行
将nutch-0.9下面有nutch-0.9.war,拷贝到Tomcat/webapps下,可以直接用winrar解压到此目录下,我是用Tomcat启动后解压的,解压文件夹名为:nutch
打开nutch/WEB-INF/classes下nutch-site.xml文件,将
<configuration></configuration>改为
<configuration>
<property>
<name>searcher.dir</name>
<value>D:/nutch-0.9/crawl</value>
</property>
</configuration>
配置的索引路径,此路径配置不对,可能会遇到在查询时显示结果为0.
5.为了支持中文,修改 Tomcat 的 server.xml 文件的 connnector:
<Connector port="8080"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />