把相邻的数字和英文字符用空格分隔开

最近在优化 es 搜索的时候,遇到个需求,需要把连着的数字和英文字母分隔开。从而让 es 把相邻的数字和英文字母分为 2 个词,因为我们用的是 ik_smart 而不是 ik_max_word ,ik_smart 会把相邻的数字和英文字母分为一个词。所以这部分工作就需要由应用端来完成。

需求已经交代清楚了,例如把:

 123hello你好

最终处理为:

123 hello 你好

上代码:

/**
 * @Author:shifengqiang
 * @Date:2021/5/28 9:24 上午
 */
public class SplitEnglishDigitalCharTool {
    public static void main(String[] args) {
        String s = "阿发阿发撒旦法12312ssdfs431热污染safsfaf23asf234打发斯蒂芬发送";
        String r = splitEnglishNumberChar(s);
        System.out.println(r);
    }
    /**
     * 把相邻的 a-z 字母和数字分开
     *
     * @return
     */
    public static String splitEnglishNumberChar(String content) {
        if (content == null) {
            return "";
        }
        char[] chars = content.toCharArray();
        StringBuilder sb = new StringBuilder();

        CharTypeEnum currentType;
        CharTypeEnum previousType = identifyCharType(chars[0]);
        int previousIndex = 0;
        for (int i = 0; i < chars.length; i++) {
            char current = chars[i];
            currentType = identifyCharType(current);

            if (currentType != previousType &&
                    (previousType.isEnglishOrDigital() || currentType.isEnglishOrDigital())) {
                previousType = currentType;
                sb.append(content.substring(previousIndex, i)).append(" ");
                previousIndex = i;
            }
        }
        sb.append(content.substring(previousIndex));
        return sb.toString();
    }


    private static CharTypeEnum identifyCharType(char c) {
        if ((c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z')) {
            return CharTypeEnum.ENGLISH_CHAR;
        } else if (c >= '0' && c <= '9') {
            return CharTypeEnum.DIGITAL;
        } else {
            return CharTypeEnum.OTHERS;
        }
    }




    public enum CharTypeEnum {
        /**
         * 阿拉伯数字 0-9
         */
        DIGITAL,
        /**
         * 英文字母 a-z A-Z
         */
        ENGLISH_CHAR,
        OTHERS,
        ;

        public boolean isEnglishOrDigital() {
            return this == DIGITAL || this == ENGLISH_CHAR;
        }
    }
}


输入:

阿发阿发撒旦法12312ssdfs431热污染safsfaf23asf234打发斯蒂芬发送

输出:

阿发阿发撒旦法 12312 ssdfs 431 热污染 safsfaf 23 asf 234 打发斯蒂芬发送
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值