根据http://lucene.apache.org/nutch/tutorial8.html中的tutorial,下载nutch-1.0,cygwin等进行配置。
在使用bin/nutch crawl urls -dir crawl -depth 3 -topN 50进行抓取的时候,出现了Invalid first character,
google到一些文章,说可能是craw-urlfilter.txt文件中的URL有问题,检查该文件,没有发现问题。
然后查看源代码,http://www.docjar.com/html/api/org/apache/nutch/urlfilter/api/RegexURLFilterBase.java.html,
检查了craw-urlfilter.txt文件仍然没有发现问题,但是执行命令就是报错,Invalid first character。
然后我重新建立了一个文件,通过windows UE进行编辑,拷贝原先的内容到新文件,然后执行命令,
正常运行,开始抓取网页。
很是奇怪??