nutch1.2常见问题解决

最新推荐文章于 2016-01-02 00:12:50 发布

周天亮

最新推荐文章于 2016-01-02 00:12:50 发布

阅读量625

点赞数

文章标签： hadoop java linux nutch

本文链接：https://blog.csdn.net/erliang20088/article/details/45789785

版权

这里是将前边几篇当中的一些常见问题进行下总结，都是自己遇到并解决的，也许是不全

1、缺少chmod命令异常

因为nutch在window下运行时需要linux某些命令，所以要装cgywin是必须的，再配上path中的bin环境变量就可以了。

2、多个job failed

（1）最常见的是由于抓取数据时比较耗内存，故需要稍微大些内存，可以在选择设置系统的jvm memory（myeclipse --> windos -->preferences --> java --> installed jre --> default jvm memory -->其值设为-Xms256 -Xmx1000m就可以了），也可以设置该crawl的jvm（右击myeclipse中的该nutch项目-->run as --> run configuration --> 选第二个标签的arguments --> jvm memory --> -Xms256m -Xmx1000m）都可以。

（2）还有一种是在nutch中conf下的nutch-default.xml中的plugin.folders配置，若是在myeclipse下的运行java文件,如常用的Crawl.java,就要修改nutch-default.xml中的plugin.folders为(./src/plugin,注意此处不是./src/plugins，此处原值是plugins)，而当你要ant该源文件成发布版时，就要修改成原样即值要为plugins才可以，两种不同情况，所寻找的路径是不一样的，一定要这样修改，不这样的话，会引起你的重新ant的nutch-1.2.war无法运行，出现ClassNotFoundException等问题。

（3）还有就是由于配置crawl-urlfilter.txt文件弄错，此处出错的机会不多，尽量不要多改，只改最后边的匹配就可以了，如改成全部抓取，即(+^)就可以了。

3、运行某个类或nutch1.2.war时出现某个Class找不到，多是因为你对nutch的组件进行了修改,对我来说，就是用IK替代nutch自带的分词组件时出现了这样的问题，因为你修改了分词组件之后，还需要注册进IKtokenlyzer中两个特别的属性，本身是不会报错，你ant时就会出问题，提示某个attribute找不到等，注意这时要修改IK的源代码，中的IKTokenlyzer，加入两个属性就可以了，paoding分词加一个属性就可以了，我在这里贴出来一下IK的，在IK的lucene的包下的IKTokenizer.java

private PositionIncrementAttribute posIncrAtt;

private TypeAttribute typeAttr;

public IKTokenizer(Reader in , boolean isMaxWordLength) {

super(in);

offsetAtt = addAttribute(OffsetAttribute.class);

termAtt = addAttribute(TermAttribute.class);

posIncrAtt = addAttribute(PositionIncrementAttribute.class);

typeAttr = addAttribute(TypeAttribute.class);

_IKImplement = new IKSegmentation(in , isMaxWordLength);

}

能想起来的暂时就这么多了，有时间再补些了。

周天亮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch1.2常见问题解决

这里是将前边几篇当中的一些常见问题进行下总结，都是自己遇到并解决的，也许是不全1、缺少chmod命令异常因为nutch在window下运行时需要linux某些命令，所以要装cgywin是必须的，再配上path中的bin环境变量就可以了。2、多个job failed （1）最常见的是由于抓取数据时比较耗内存，故需要稍微大些内存，可以在选择设置系统的jv
复制链接

扫一扫