IK分词默认的分词结果是没有标点符号的,看了一番源码。发现直接修改源代码加入标点需要改动多处。
所以想到了一个策略,从外部包一层代码,先让ik分词,然后检测它的前后是否有遗漏符号,然后将符号加入分词结果中。
当然,大家如果有好的方法,请上交!
下边是源码部分:
public class IKDemo {
public static void main(String[] args) throws Exception {
String input = "^_^ 你好,ik分词!";
Lexeme beforeWord = null;
Lexeme currentWord = null;
StringBuffer sb = new StringBuffer();
IKSegmenter ik = new IKSegmenter(new StringReader(input), true);
System.out.println("原句:"+input);
while ((currentWord = ik.next()) != null) {
sb.append(appendSymbol(input, beforeWord, currentWord));
beforeWord = currentWord;
}
sb.append(appendSymbol(input, beforeWord, currentWord));
System.out.println("分词:"+sb.t