je 分词及 Lucene2.9 TokenStream新的遍历方法

import java.io.IOException;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.TermAttribute;

import org.apache.lucene.analysis.tokenattributes.TypeAttribute;


import jeasy.analysis.MMAnalyzer;


public class JE {

public static void main(String[] args) throws IOException {

 

MMAnalyzer analyzer = new MMAnalyzer();

TokenStream ts = analyzer.tokenStream("", new StringReader("Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。"));

TermAttribute termAtt = (TermAttribute) ts

.getAttribute(TermAttribute.class);

TypeAttribute typeAtt = (TypeAttribute) ts

.getAttribute(TypeAttribute.class);

while (ts.incrementToken()) {

System.out.print(termAtt.term());

System.out.print("  ");

System.out.println(typeAtt.type());

}


}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值