J2SE
Tomcat
Cygwin
Nutch
1 安装J2SE
2 安装Tomcat
3 安装Cygwin
4 Nutch解压
配置 nutch
配置抓取过滤器,确定要抓取的网站地址
打开NUTCH_HOME/conf/crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*/.)*baidu.com/
说明: 其中baidu.com为要搜索的域名
配置抓取的起始网站地址
在NUTCH_HOME中建立文件url 文件内容:http://www.gucas.ac.cn/
./bin/nutch crawl url -dir datas -depth 2 -threads 4 >& crawl.log
配置tomcat
删除ROOT目录,将nutch-0.7.2.war解压缩到ROOT目录中 (可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war) 配置文件:TOMCAT_HOME/webapps/ROOT/WEB-INF/classes/nutch-site.xml
//重点设置部分
<nutch-conf> <property> <name>searcher.dir</name> <value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value> </property></nutch-conf>
在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。<value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>部分,你可以自由修改。
接下来修改tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可: <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
重启tomcat服务器 IE中输入http://localhost:8080