java 调用 ikAnalyzer

最新推荐文章于 2024-07-04 16:23:35 发布

lvzhirong1

最新推荐文章于 2024-07-04 16:23:35 发布

阅读量3.7k

点赞数 1

分类专栏： java调用外部工具中文分词文章标签： java IKAnalyzer 中文分词

本文链接：https://blog.csdn.net/lvzhirong1/article/details/51745102

版权

java调用外部工具同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

中文分词

1 篇文章 0 订阅

订阅专栏

下载地址： http://pan.baidu.com/s/1dFDffDB

解压缩后，有如下文件：

其中，lucene-core-3.6.0.jar 是作者自行加入的，编译时需要。该版本的IKAnalyzer不支持lucene4.0、lucene5.5.0，估计4.0及以上的版本都不支持。

1. 将IKAnalyzer2012.jar、lucene-core-3.6.0.jar导入工程；

2. 将IKAnalyzer.cfg.xml、stopword.dic文件拷贝到src根目录下（编译后在classes根目录下）;

java调用ik做分词的示例代码：

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.IOException;
import java.io.StringReader;

public class IKAnalyzerDemo {
    public static void main(String[] args) throws IOException{
        String text = "小孩不听话怎么办？吃东坡肉啊！";

        //创建分词对象
        Analyzer anal = new IKAnalyzer(true);
        StringReader reader = new StringReader(text);
        //分词
        TokenStream ts = anal.tokenStream("", reader);
        CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
        //遍历分词数据
        while(ts.incrementToken()){
            System.out.print(term.toString() + "|");
        }
        reader.close();
        System.out.println();
    }

}

执行结果：