此文件在上一篇博客中
下载IKAnalyzer2013.zip文件解压
在eclipse中新建web项目——》打开项目的路径,讲解压后的文件拷贝的项目src目录下
回到eclipse开发页面,刷新项目即可
新建测试类具体代码如下:
package org.wltea.analyzer.test;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
/**
*
* @ClassName: LuceneIndexAndSearchDemo
* @Description: IKAnalyzer demo
* @author 二凡
* @date 2015年12月3日
*
*/
public class LuceneIndexAndSearchDemo {
/**
*
* @Title: main
* @Description: TODO(这里用一句话描述这个方法的作用)
* @param @param args 参数
* @return void 返回类型
* @throws
*/
public static void main(String[] args){
//检索内容
//String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。";
String text = "请问五道口到中国人民大学怎么走的?";
//String text = "2012年欧洲杯四强赛";
//实例化IKAnalyzer分词器
StringReader reader = new StringReader(text);
Analyzer analyzer = new IKAnalyzer(true);
TokenStream ts;
try {
ts = analyzer.tokenStream("", reader);
CharTermAttribute term = (CharTermAttribute) ts.getAttribute(CharTermAttribute.class);
ts.reset();
String txt = "";
while (ts.incrementToken()) {
txt = txt + term.toString() + "\t";
}
System.out.print(txt);
} catch (IOException e1) {
e1.printStackTrace();
}
reader.close();
}
}
配置分词文件 IKAnalyzer.cfg.xml
自定义字典文件:ext.dic 扩展停止词字典chineseStopword.dic , stopword.dic
配置分词字典:
请记住:
IKAnalyzer.cfg.xml
自定义字典文件:ext.dic 扩展停止词字典chineseStopword.dic , stopword.dic 需放在项目的 src 目录下
配置完毕后:测试
运行结
果