java实现字符串中的中文繁简转换

1.使用的jar包heaven-0.1.129.jar、nlp-common-0.0.3.jar、opencc4j-1.6.0.jar
2.写成工具方法

    /**
     * 转换字符串中的繁体中文为简体中文
     */
    public static String changeToSimpleChinese(String searchName) {
        StringBuilder stringBuilder = new StringBuilder();
        int n = 0;
        for(int i = 0; i < searchName.length(); i++) {
            n = (int)searchName.charAt(i);
            char c = searchName.charAt(i);
            String s = String.valueOf(c);
            if(!(19968 <= n && n <40869)) {
                stringBuilder.append(c);
            }else {
                List<String> strings = ZhConverterUtil.toSimple(c);
                if (strings != null) {
                    int z = 1;
                    //下面用于解决:如果出现简体字转简体居然不是同一个字的时候
                    for (String string : strings) {
                        if (string.equals(s)) {
                            stringBuilder.append(string);
                        } else if (strings.size() == z) {
                            stringBuilder.append(strings.get(0));
                        }
                        z++;
                    }
                } else {
                    stringBuilder.append(c);
                }
            }
        }
        return stringBuilder.toString();
    }


    /**
     * 转换字符串中的简体中文为繁体中文
     */
    public static String changeToTraditionalChinese(String searchName) {
        StringBuilder stringBuilder = new StringBuilder();
        int n = 0;
        for(int i = 0; i < searchName.length(); i++) {
            n = (int)searchName.charAt(i);
            char c = searchName.charAt(i);
            String s = String.valueOf(c);
            if(!(19968 <= n && n <40869)) {
                stringBuilder.append(c);
            }else {
                List<String> strings = ZhConverterUtil.toTraditional(c);
                if (strings != null) {
                    int z = 1;
                    //下面用于解决:如果出现繁体字转繁体字居然不是同一个字的时候
                    for (String string : strings) {
                        if (string.equals(s)) {
                            stringBuilder.append(string);
                        } else if (strings.size() == z) {
                            stringBuilder.append(strings.get(0));
                        }
                        z++;
                    }
                } else {
                    stringBuilder.append(c);
                }
            }
        }
        return stringBuilder.toString();
    }

3.测试一下

public static void main(String[] args) {

        String test = "234sejs飞翔的河南人國動达人电脑饮食";

        String simpleChinese = changeToSimpleChinese(test);
        System.out.println(simpleChinese);

        String traditionalChinese = changeToTraditionalChinese(test);
        System.out.println(traditionalChinese);

    }
    234sejs飞翔的河南人国动达人电脑饮食
    234sejs飛翔的河南人國動達人電腦飲食    

4.char值在19968-40869之间的为中文的Unicode编码区域。由于同一个简体中文可能出现多个繁体或者一个繁体中文出现多个简体的情况(列如“周”),所以取的时候只取到了集合的第一个(一般第一个比较通用)。opencc4j中自带了分词器,但是由于可能会出现对字符串分词的不准确导致转换失败,所以采用这种给字符串中的每一个字符进行转换的方式。参考了关于编码的博客https://blog.csdn.net/weixin_44062339/article/details/96964465

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值