solr:IK分词方法

最新推荐文章于 2024-02-07 00:39:01 发布

迪迪调调

最新推荐文章于 2024-02-07 00:39:01 发布

阅读量366

点赞数

分类专栏： solr和lucence（搜索引擎）工作文章标签： solr IK

本文链接：https://blog.csdn.net/u010248330/article/details/78604256

版权

工作同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

solr和lucence（搜索引擎）

5 篇文章 0 订阅

订阅专栏

下面两种方法是我在实际工作项目中用到的分词，需要引入IKAnalyzer-3.2.8.jar包。


     /**
     * @author: kxl
     * 分词
     */
    public String analyse(String word) {
    try {
        Analyzer analyzer = new IKAnalyzer(false);
        StringReader wordText = new StringReader(word);
        TokenStream tokenStream = analyzer.tokenStream("text", wordText);
        CharTermAttribute term = (CharTermAttribute) tokenStream.getAttribute(CharTermAttribute.class);
        StringBuilder sb = new StringBuilder();
        while (tokenStream.incrementToken()) {
            sb.append(term);
            sb.append(" | ");
        }
        tokenStream.close();
    } catch (IOException e) {
       e.printStackTrace();
    }
    return sb.toString();
    }

    public String TextDeliAnalysis(String text) {

        IKSegmentation ikSegmenter = new IKSegmentation(new StringReader(text), false);
        List<String> termList = new ArrayList<String>();
        StringBuilder sb = new StringBuilder();
        Lexeme lexeme;
        try {
            while ((lexeme = ikSegmenter.next()) != null) {
                termList.add(lexeme.getLexemeText());
            }
            for (int i=0;i<termList.size();i++) {

                sb.append(termList.get(i));
                sb.append(" | ");
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
        return sb.toString();
    }