lucene 分词器

lucene的英文分词器主要用到StandardAnalyzer,中文的主要是极易分词MMAnalyzer(需要单独引jar包je-analysis-1.5.3.jar)。

英文分词的过程:[color=red][size=large]1,关键词切分->2,去除停用词(is of)->3,形态还原(ing,ed,复数等)->4,转化为小写[/size][/color]

中文分词::[color=red][size=large]1,关键词切分->2,去除停用词(的 着)[/size][/color]




import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class AnalyzerTest {


static String enText = "The PGP signatures can be verified using PGP or GPG. ";
static String chText = "世界发达国家居民消费1000度的电能的费用占全国月平均工资的6.79%";
static Analyzer en1 = new StandardAnalyzer();
static Analyzer en2 = new SimpleAnalyzer();
static Analyzer ch1 = new MMAnalyzer();



/**
* @param args
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
new AnalyzerTest().analyze(chText, ch1);

}


public void analyze(String text,Analyzer analyzer) throws Exception{
TokenStream tokenStream = analyzer.tokenStream(null, new StringReader(text));
for (Token token = new Token();(token = tokenStream.next(token))!= null;){
System.out.println(token);
}
}

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值