nutch0.9中使用je分词

前言:msn空间丢失以及csdn空间丢失,导致很多以前写的文档都不见了~~幸好搜索到了,贴回来留念~~2007年的记忆:)

 

首先要感谢"苹果"、"冰人"、"悟空"等,他们给了我思路和代码等方面的帮助。

注:本文挡为最基本的分词方式,分词后原有高级搜索部分功能无效。

        如果各位仍然需要高级搜索功能,请参见Nutch0.9分词研究中的思路加以修改。

 

将如下文件中的同一方法使用以下方法替换

NutchDocumentAnalyzer.java中
  public TokenStream tokenStream(String fieldName, Reader reader) {
    MMAnalyzer myanalyzer=new MMAnalyzer();
    return myanalyzer.tokenStream(fieldName, reader);
  }
NutchAnalysis.java中
  final public Query parse(Configuration conf) throws ParseException,IOException {
  Query query = new Query(conf);
  StringReader input;
  input=new java.io.StringReader(queryString);
  org.apache.lucene.analysis.TokenStream tokenizer=new MMAnalyzer().tokenStream(queryString,input);
  for(org.apache.lucene.analysis.Token t=tokenizer.next();t!=null;t=tokenizer.next()){
   String[] array={t.termText()};
   query.addRequiredPhrase(array);
  }
  {if (true) return query;}
    throw new Error("Missing return statement in function");
  }

之后引je包,编译后替换nutch相关文件并更新tomcat下的nutch-0.9.jar文件,发布,即可看到分词效果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值