solr:IK分词方法

下面两种方法是我在实际工作项目中用到的分词,需要引入IKAnalyzer-3.2.8.jar包。


     /**
     * @author: kxl
     * 分词
     */
    public String analyse(String word) {
    try {
        Analyzer analyzer = new IKAnalyzer(false);
        StringReader wordText = new StringReader(word);
        TokenStream tokenStream = analyzer.tokenStream("text", wordText);
        CharTermAttribute term = (CharTermAttribute) tokenStream.getAttribute(CharTermAttribute.class);
        StringBuilder sb = new StringBuilder();
        while (tokenStream.incrementToken()) {
            sb.append(term);
            sb.append(" | ");
        }
        tokenStream.close();
    } catch (IOException e) {
       e.printStackTrace();
    }
    return sb.toString();
    }
    public String TextDeliAnalysis(String text) {

        IKSegmentation ikSegmenter = new IKSegmentation(new StringReader(text), false);
        List<String> termList = new ArrayList<String>();
        StringBuilder sb = new StringBuilder();
        Lexeme lexeme;
        try {
            while ((lexeme = ikSegmenter.next()) != null) {
                termList.add(lexeme.getLexemeText());
            }
            for (int i=0;i<termList.size();i++) {

                sb.append(termList.get(i));
                sb.append(" | ");
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
        return sb.toString();
    }

这个两个代码里面的布尔值,代表的是不是设置最大分词,比如:
“米林地震”如果设置为true代表设置最大分词,分词为:米林|林地|地震
如果设置为false,分词为 :米林 | 米 | 林地 | 林 | 地震 | 地 | 震 |

注意:各版本可能会有稍许区别,高点的版本为
IKSegmenter ikSegmenter = new IKSegmenter(new StringReader(text), true);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值