前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。
package com.wfc.lucene_1;
import java.io.StringReader;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
public class Test_1 {
public static void main(String[] args)throws Exception {
//下面这个分词器,是经过修改支持同义词的分词器
StandardAnalyzer analyzer=new StandardAnalyzer(Version.LUCENE_4_9);
String text="三劫散仙是一个菜鸟";
TokenStream ts=analyzer.tokenStream("field", new StringReader(text));
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
ts.reset();//重置做准备
while(ts.incrementToken()){
System.out.println(term.toString());
}
ts.end();//
ts.close();//关闭流
}
}
关于分词的知识有很多,以后补充过来。