下面两种方法是我在实际工作项目中用到的分词,需要引入IKAnalyzer-3.2.8.jar包。
/**
* @author: kxl
* 分词
*/
public String analyse(String word) {
try {
Analyzer analyzer = new IKAnalyzer(false);
StringReader wordText = new StringReader(word);
TokenStream tokenStream = analyzer.tokenStream("text", wordText);
CharTermAttribute term = (CharTermAttribute) tokenStream.getAttribute(CharTermAttribute.class);
StringBuilder sb = new StringBuilder();
while (tokenStream.incrementToken()) {
sb.append(term);
sb.append(" | ");
}
tokenStream.close();
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
public String TextDeliAnalysis(String text) {
IKSegmentation ikSegmenter = new IKSegmentation(new StringReader(text), false);
List<String> termList = new ArrayList<String>();
StringBuilder sb = new StringBuilder();
Lexeme lexeme;
try {
while ((lexeme = ikSegmenter.next()) != null) {
termList.add(lexeme.getLexemeText());
}
for (int i=0;i<termList.size();i++) {
sb.append(termList.get(i));
sb.append(" | ");
}
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
这个两个代码里面的布尔值,代表的是不是设置最大分词,比如:
“米林地震”如果设置为true代表设置最大分词,分词为:米林|林地|地震
如果设置为false,分词为 :米林 | 米 | 林地 | 林 | 地震 | 地 | 震 |
注意:各版本可能会有稍许区别,高点的版本为
IKSegmenter ikSegmenter = new IKSegmenter(new StringReader(text), true);