【ElasticSearch】IK分词加入标点符号

559 篇文章 547 订阅 ¥79.90 ¥99.00

在这里插入图片描述

1.概述

转载并且补充:https://blog.csdn.net/loyopp/article/details/47758247

IK分词默认的分词结果是没有标点符号的,看了一番源码。发现直接修改源代码加入标点需要改动多处。

所以想到了一个策略,从外部包一层代码,先让ik分词,然后检测它的前后是否有遗漏符号,然后将符号加入分词结果中。

当然,大家如果有好的方法,请上交!

下边是源码部分:

maven依赖

    <!--<dependency>-->
            <!--<groupId>io.github.zacker330.es</groupId>-->
            <!--<artifactId>ik-analysis-core</artifactId>-->
            <!--<version>1.0.0</version>-->
        <!--</dependency>-->
        <!-- https://mvnrepository.com/artifact/cn.bestwu/ik-analyzers -->
        <dependency>
            <groupId>cn.bestwu</groupId>
            <artifactId>ik-analyzers</artifactId>
            <version>5.1.0</version>
        </dependency>

代码

package com.es.participles.IK;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

import java.io.StringReader;

/**
 * @author: chuanchuan.lcc
 * @date: 2021-06-23 22:28
 * @modifiedBy: chuanchuan.lcc
 * @version: 1.0
 * @description:
 *
 * IK 分词器包含 标点符号
 */
public class IKHavePunctuation {

    /**
     * 测试点:测试IK分词器 能分出来标点符号
     * 参考:https://blog.csdn.net/loyopp/article/details/47758247
     * 测试结果:
     *
     * 原句:^_^ 你好,ik分词!
     * 分词:^ _ ^ 你好 , ik 分词 !
     *
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        String input = "^_^ 你好,ik分词!";
        Lexeme beforeWord = null;
        Lexeme currentWord = null;
        StringBuffer sb = new StringBuffer();
        IKSegmenter ik = new IKSegmenter(new StringReader(input), true);
        System.out.println("原句:"+input);
        while ((currentWord = ik.next()) != null) {
            sb.append(appendSymbol(input, beforeWord, currentWord));
            beforeWord = currentWord;
        }
        sb.append(appendSymbol(input, beforeWord, currentWord));
        System.out.println("分词:"+sb.toString().replaceAll(" +", " ").trim());
    }
    /**
     * 补全IK分词遗漏的符号
     * @param line
     * @param before
     * @param cur
     * @return
     */
    public static String appendSymbol(String line, Lexeme before, Lexeme cur) {
        String res = "";
        if (before == null) {// 第一个词前边的符号
            res = cur.getLexemeText() + " ";
            int start = cur.getBegin();
            if (start > 0) {
                String left =appendWhiteSpace(line.substring(0, start));
                res = left + res;
            }
        } else if (cur == null) {// 最后一个词后边的符号
            int end = before.getEndPosition();
            if (end < line.length()) {
                String right =appendWhiteSpace( line.substring(before.getEndPosition()));
                res = right;
            }
        } else { // 和前一个词之间的符号
            res = cur.getLexemeText() + " ";
            int beforeEnd = before.getEndPosition();
            if (cur.getBegin() > beforeEnd) {
                String mid = appendWhiteSpace(line.substring(beforeEnd, cur.getBegin()));
                res = mid + res;
            }
        }
        return res;
    }
    /**
     * 你好吗 -> 你 好 吗
     * @param src
     * @return
     */
    public static String appendWhiteSpace(String src){
        String dst="";
        for (char c : src.toCharArray()) {
            dst += c + " ";
        }
        return dst;
    }

}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值