下载地址:
http://pan.baidu.com/s/1dFDffDB
java调用ik做分词的示例代码:
解压缩后,有如下文件:
其中,lucene-core-3.6.0.jar 是作者自行加入的,编译时需要。该版本的IKAnalyzer不支持lucene4.0、lucene5.5.0,估计4.0及以上的版本都不支持。
1. 将IKAnalyzer2012.jar、lucene-core-3.6.0.jar导入工程;
2. 将IKAnalyzer.cfg.xml、stopword.dic文件拷贝到src根目录下(编译后在classes根目录下);
import org.apache.lucene.analysis.Analyzer;执行结果:
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
import java.io.IOException;
import java.io.StringReader;
public class IKAnalyzerDemo {
public static void main(String[] args) throws IOException{
String text = "小孩不听话怎么办?吃东坡肉啊!";
//创建分词对象
Analyzer anal = new IKAnalyzer(true);
StringReader reader = new StringReader(text);
//分词
TokenStream ts = anal.tokenStream("", reader);
CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
//遍历分词数据
while(ts.incrementToken()){
System.out.print(term.toString() + "|");
}
reader.close();
System.out.println();
}
}
————————————————————————————————————
加载扩展停止词典:stopword.dic
小孩|不听话|怎么办|吃|东坡肉|啊|
Process finished with exit code 0
————————————————————————————————————
参考: