IKAnalyzer试用手记-CSDN博客

本文链接：https://blog.csdn.net/iteye_4941/article/details/82088232

其它什么的不哆嗦了，直接上代码。

import java.io.IOException;
import java.io.StringReader;

import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;


public class Test {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String t = "累计了近一年的增长，iphone4岡崎律子ipad216g岡崎律子快乐家族杨千嬅尤其是最近一段时间的疯涨，让民众很自然想起07至08年那段猪肉价格让人心悸的高位运行的日子。现在的猪肉价位已经差不多达到甚至超过那时期的水平。俗话说：“猪粮安天下”，占了中国肉类消费65%的猪肉，其疯涨行为也成为了CPI居高不下的一大黑手。为什么猪肉价格这么贵？什么时候猪肉价格能下跌？";
		System.out.println("原文:"+t);	
		System.out.println("----------分词结果(采用最大词长分词)--------");	
		long start = System.currentTimeMillis();
		IKSegmentation ikSeg = new IKSegmentation(new StringReader(t) ,true);
		long end = System.currentTimeMillis();
		try {
			Lexeme l = null;
			while( (l = ikSeg.next()) != null){
				System.out.println(l);
			}
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		System.out.println("耗时:"+(end-start)+"毫秒");
	}

}

这里有个人名叫岡崎律子,原词库解析不出来，看来要用自定义词库了，别以为就是建个TXT文档放到程序目录下，再设置一下配置文件就可以了，那你就大错特错了。下面这句关键：

词典文件格式是无BOM 的UTF-8 编码的中文文本文件，文件扩展名不限。词典中，每个中文词汇独立占一行，使用\r\n 的DOS 方式换行。

如果你不知道怎么搞，就学我的，把它原来的ext_stopword.dic复制一个，再把里面的内容改了就OK了，修改工具用的是editplus.