首先需要引入一下两个包:
IKAnalyzer2012FF_u1.jar
lucene-core-4.3.1.jar
如果想和服务器上的停词库同步可以把stopword.dic拷贝进来。
别的什么都不需要进行配置,代码如下
/**
* IK分词器两种写法
* @author zhouguohui
*
*/
public class test {
public static void main( String[] args ){
test1();
test2();
}
/**
* 使用IK实现
*/
public static void test1(){
try {
String text="基于IK分词器的两种不同写法的分词工具,这是第一种";
//创建分词对象
Analyzer anal=new IKAnalyzer(true);
StringReader reader=new StringReader(text);
//分词
TokenStream ts = anal.tokenStream("", reader);
CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
//遍历分词数据
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}
reader.close();
System.out.println();
} catch (IOException e) {
e.printStackTrace();
}
}
/**
* 使用lucene实现
*/
public static void test2(){
try{
String text="基于IK分词器的两种不同写法的分词工具,这是第二种";
StringReader sr=new StringReader(text);
IKSegmenter ik=new IKSegmenter(sr, true);
Lexeme lex=null;
while((lex=ik.next())!=null){
System.out.print(lex.getLexemeText()+"|");
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
运行结果为:
基于|ik|分词器|的|两种|不同|写法|的|分词|工具|这是|第一种|
基于|ik|分词器|的|两种|不同|写法|的|分词|工具|这是|第二种|