1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log
出现下面问题:bin/nutch: line 251: exec: C:\Program: not found。
解决:从新完整的安装cygwin,不要按照网上说的只安装其中需要的那几个包内容。
2、右上角选项卡乱码问题
右上角“简介”、“常见问题”在搜索主界面不乱吗,但搜索时乱码的问题。
修改 Tomcat 7.0/webapps/nutch-1.2/zh/header.html 的编码为GBK
<?xml version="1.0" encoding="GBK"?>
注意:在<?xml version="1.0" encoding="GBK"?>后在添加<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
按照这篇文章修改源码的时候会出现以下错误:
LinkDb: finished at 2011-07-14 11:34:06, elapsed: 00:00:03
Indexer: starting at 2011-07-14 11:34:06
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:167)
Indexer: starting at 2011-07-14 11:34:06
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:167)