nutch研究—遇到的错误和解决办法

本文档记录了在使用Nutch进行网页抓取时遇到的常见问题及解决方案,包括cygwin执行错误、Tomcat界面乱码、NutchDocumentAnalyzer引起的异常以及页面显示空白的修复方法。针对每个问题,详细说明了错误原因并提供了相应的源码修改和重新编译的步骤。
摘要由CSDN通过智能技术生成

1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log 

    出现下面问题:bin/nutch: line 251: exec: C:\Program: not found。

解决:从新完整的安装cygwin,不要按照网上说的只安装其中需要的那几个包内容。


2、右上角选项卡乱码问题

右上角“简介”、“常见问题”在搜索主界面不乱吗,但搜索时乱码的问题。

修改 Tomcat 7.0/webapps/nutch-1.2/zh/header.html 的编码为GBK

<?xml version="1.0" encoding="GBK"?>

注意:在<?xml version="1.0" encoding="GBK"?>后在添加<META http-equiv="Content-Type" content="text/html; charset=UTF-8">


3、 Nutch1.2 添加IKAnalyzer中文分词(参考这篇文章)
按照这篇文章修改源码的时候会出现以下错误:
LinkDb: finished at 2011-07-14 11:34:06, elapsed: 00:00:03
Indexer: starting at 2011-07-14 11:34:06
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:167)
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值