nutch中文分词(修改源码的方式)

1、需要的jar包

     je-analysis-1.5.3.jar  javacc工具  ant

2、部署nutch工程到eclipse中,这一步网上有很多的参考。

3、nutch工程部署好后直接修改org.apache.nutch.analysis包下面的NutchDocumentAnalyzer.java的  tokenStream方法   即将以下代码

      

/** Returns a new token stream for text from the named field. */
  public TokenStream tokenStream(String fieldName, Reader reader) {
    Analyzer analyzer;
    if ("anchor".equals(fieldName))
      analyzer = ANCHOR_ANALYZER;
    else
      analyzer = CONTENT_ANALYZER;

    return analyzer.tokenStream(fieldName, reader);
  }

 

替换成

          

public TokenStream tokenStream(String fieldName, Reader reader) {
Analyzer analyzer;
analyzer= new MMAnalyzer();//需要导入je-analysis包
return analyzer.tokenStream(fieldName, reader);
} 

 4、在org.apache.nutch.analysis包下类文件NutchAnalysis.jj中

        

  将<SIGRAM: <CJK> >替换为 <SIGRAM: (<CJK>)+ >

    然后将这个文件拷贝到一个空目录下,使用javacc进行编译,编译后生成7个java文件,将这7个java文件覆盖org.apache.nutch.analysis包下的文件。此时会有一个异常,只需要在ParseException.java中将Exception改为IOException

5、修改工程目录下的build.xml文件

      

<lib>
........
.......
..........
<include name="je-analysis-*.jar"/> <!--添加这句-->
</lib>

 7、使用ant编译工程文件

      

      

输入ant (将在工程目录下的build目录下输出nutch.job文件)
输入ant war (将在工程目录下的build目录下输出nutch.war文件)
输入ant jar (将在工程目录下的build目录下输出nutch.jar文件)

     将输出的三个文件拷贝到工程根目录下,覆盖原有的三个文件

8、测试

         运行org.apche.nutch.crawl中的Crawl类进行爬虫,当然也可以通过命令的方式进行爬虫

          在tomcat下部署第七步生成的nutch.war文件,配置好nutch-site.xml文件后.

          

<property>
    <name>searcher.dir</name>
    <value>存放爬虫结果的目录</value>
  </property>

 

在浏览器中输入http://localhost:8080/nutch-1.0 ,回车后查看结果!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值