<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。
复制nutch-1.0war到tomcat目录/webapps
Your_crawl_dir_path 指刚才抓取网页时网页保存的文件夹,比如我的就是:/home/xusai/nutch-1.0/mydir
最后在浏览器中输入 http://localhost:8080/nutch-1.0
就可以看到nutch的搜索界面了。
这时候的nutch在搜索时可能会出现中文乱码,其实这是tomcat的问题。
解决办法:对/tomcat/apache-tomcat-6.0.20/conf 目录下的server.xml做一下修改:
将
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" />
改为
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8"
useBodyEncodingForURI="true"/>
然后重启tomcat即可。必要时可以用sudo命令重启tomcat。
ps:今天在给同学配置tomcat的时候出现了一点小问题:jdk安好了,用java -version可以看到设置的就是sun的jdk1.6.0_16,甚至nutch的都可以正常抓取了,但是tomcat仍然提示JAVA_HOME没有设置,这个问题的解决办法是在Tomcat的/bin/catalina.sh文件的最前面添加:
JAVA_HOME="/usr/lib/jvm/java/jdk1.6.0_16",这样以后就可以正常显示tomcat的小猫了。
还有一点疑问:我自己再配的时候并没有改动tomcat的这个文件,怎么也成功了呢??纠结。。。