其它什么的不哆嗦了,直接上代码。
import java.io.IOException;
import java.io.StringReader;
import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;
public class Test {
/**
* @param args
*/
public static void main(String[] args) {
String t = "累计了近一年的增长,iphone4岡崎律子ipad216g岡崎律子快乐家族杨千嬅尤其是最近一段时间的疯涨,让民众很自然想起07至08年那段猪肉价格让人心悸的高位运行的日子。现在的猪肉价位已经差不多达到甚至超过那时期的水平。俗话说:“猪粮安天下”,占了中国肉类消费65%的猪肉,其疯涨行为也成为了CPI居高不下的一大黑手。为什么猪肉价格这么贵?什么时候猪肉价格能下跌?";
System.out.println("原文:"+t);
System.out.println("----------分词结果(采用最大词长分词)--------");
long start = System.currentTimeMillis();
IKSegmentation ikSeg = new IKSegmentation(new StringReader(t) ,true);
long end = System.currentTimeMillis();
try {
Lexeme l = null;
while( (l = ikSeg.next()) != null){
System.out.println(l);
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("耗时:"+(end-start)+"毫秒");
}
}
这里有个人名叫岡崎律子,原词库解析不出来,看来要用自定义词库了,别以为就是建个TXT文档放到程序目录下,再设置一下配置文件就可以了,那你就大错特错了。下面这句关键:
词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。
如果你不知道怎么搞,就学我的,把它原来的ext_stopword.dic复制一个,再把里面的内容改了就OK了,修改工具用的是editplus.