java 实现Unicode与普通字符(包括中文)的转换

    今天使用zl464发送tts语音播报,文档上面明确要求中文编码是UTF-8,但是我发过去的中文,它全都不认识,最后实验出来需要将字符串转成Unicode它就认识了,下面记录了java中文转Unicode的方法。

Java实现Unicode与普通字符的转换
什么是Unicode?与UTF-8、UTF-16、UTF-32是什么关系?
Unicode是一个字符编码标准,负责分配某个字符在Unicode字符集中的序号。

UTF-8、UTF-16、UTF-32等则是具体的编码方案,也就是将字符在Unicode字符集中的序号转换为具体的编码方案。

如:

UTF-8是针对不同范围的序号转换成不同长度的字符编码,最短编码为一个字节(8bit),可兼容ASCII;
UTF-16跟UTF-8类似,不过最短编码为两个字节(16bit),不可兼容ASCII;
当前Unicode能容纳的最大编号为2^32 - 1,也就是32bit,所以UTF-32是每个字符长度固定为32bit的定长编码。
如何进行转换?
知道什么是Unicode以后,代码就很简单了:将字符对应的Unicode编码转为16进制,并加上\u前缀即可转为Unicode;剥离Unicode的\u前缀即可获得其在Unicode字符集的序号,转成String即可。

引用原文链接:https://blog.csdn.net/java_t_t/article/details/127840074

package com.photon.core.DataApi.Utils;

import com.alibaba.fastjson.JSON;

import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class UnicodeCharConvert {
    private static final Pattern PATTERN_UNICODE = Pattern.compile("\\\\u[a-f0-9A-F]{1,4}");

    /**
     * unicode串转字符串
     *
     * @param unicode unicode串
     * @return 字符串
     */
    private static String unicodeToChar(String unicode) {
        if (unicode == null || unicode.isEmpty()) {
            return unicode;
        }
        StringBuffer str = new StringBuffer();
        String[] hex = unicode.split("\\\\u");
        for (int index = 1; index < hex.length; index++) {
            int data = Integer.parseInt(hex[index], 16);
            str.append((char) data);
        }
        return str.toString();
    }

    /**
     * 字符串转unicode串
     *
     * @param str 字符串
     * @return unicode串
     */
    public static String charToUnicode(String str) {
        if (str == null || str.isEmpty()) {
            return str;
        }
        StringBuffer unicode = new StringBuffer();
        for (int index = 0; index < str.length(); index++) {
            char c = str.charAt(index);

            // 转换为unicode
            String tmp = Integer.toHexString(c);
            if (tmp.length() >= 4) {
                unicode.append("\\u" + tmp);
            } else if (tmp.length() == 3) {
                unicode.append("\\u0" + tmp);
            } else if (tmp.length() == 2) {
                unicode.append("\\u00" + tmp);
            } else if (tmp.length() == 1) {
                unicode.append("\\u000" + tmp);
            } else if (tmp.length() == 3) {
                unicode.append("\\u0000");
            }

        }
        return unicode.toString();
    }


    /**
     * 混合串转普通字符串
     * 混合串指的是包含unicode和普通字符的字符串
     *
     * @param mixStr 混合串
     * @return 普通字符串
     */
    public static String mixStrToString(String mixStr) {
        if (mixStr == null || mixStr.isEmpty()) {
            return mixStr;
        }
        int start = 0;
        StringBuffer result = new StringBuffer();
        Matcher matcher = PATTERN_UNICODE.matcher(mixStr);
        while (matcher.find()) {
            String oldChar = matcher.group();
            result.append(mixStr.substring(start, matcher.start()));
            result.append(unicodeToChar(oldChar));
            start = matcher.start() + oldChar.length();
        }
        result.append(mixStr.substring(start));
        return result.toString();
    }

    /**
     * 混合串转unicode串
     * 混合串指的是包含unicode和普通字符的字符串
     *
     * @param mixStr 混合串
     * @return unicode串
     */
    public static String mixStrToUnicode(String mixStr) {
        if (mixStr == null || mixStr.isEmpty()) {
            return mixStr;
        }
        int start = 0;
        StringBuffer result = new StringBuffer();
        Matcher matcher = PATTERN_UNICODE.matcher(mixStr);
        while (matcher.find()) {
            String oldChar = matcher.group();
            result.append(charToUnicode(mixStr.substring(start, matcher.start())));
            result.append(oldChar);
            start = matcher.start() + oldChar.length();
        }
        result.append(charToUnicode(mixStr.substring(start)));
        return result.toString();
    }


    /**
     * 字符串转换unicode,不能转换符号
     */
    public static String string2Unicode(String string) {
        StringBuffer unicode = new StringBuffer();
        for (int i = 0; i < string.length(); i++) {
            // 取出每一个字符
            char c = string.charAt(i);
            if (c < 0x20 || c > 0x7E) {
                // 转换为unicode
                String tmp = Integer.toHexString(c);
                if (tmp.length() >= 4) {
                    unicode.append("\\u" + Integer.toHexString(c));
                } else if (tmp.length() == 3) {
                    unicode.append("\\u0" + Integer.toHexString(c));
                } else if (tmp.length() == 2) {
                    unicode.append("\\u00" + Integer.toHexString(c));
                } else if (tmp.length() == 1) {
                    unicode.append("\\u000" + Integer.toHexString(c));
                } else if (tmp.length() == 3) {
                    unicode.append("\\u0000");
                }
            } else {
                unicode.append(c);
            }
        }
        return unicode.toString();
    }


    public static void main(String[] args) {

        Map<String, Object> v = new HashMap<>();

//        Channel channel = channelMap.get(IMEI);

        v.put("tts", UnicodeCharConvert.charToUnicode("您好,您的订单即将结束,剩余时间15分钟,如需延时,请尽快续约!"));
        v.put("vol", 100);

        String strPacket = JSON.toJSONString(v);

        System.out.println(msg);
        System.out.println(strPacket);
        //map 转成json 后会有多余的反斜杠需要去掉
        System.out.println(strPacket.replace("\\\\", "\\"));

  


    }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Java中可以使用Unicode编码来表示字符,也可以将Unicode编码转换字符。 将Unicode编码转换字符可以使用Java中的char类型,例如: char c = '\u0041'; // 将Unicode编码为十六进制表示的字符'A' 将字符转换Unicode编码可以使用Java中的String类型的getBytes()方法,例如: String str = "A"; byte[] bytes = str.getBytes("Unicode"); // 将字符'A'转换Unicode编码的字节数组 String unicodeStr = new String(bytes, "Unicode"); // 将Unicode编码的字节数组转换Unicode编码的字符串 需要注意的是,Java中的char类型占用两个字节,可以表示Unicode编码范围内的所有字符。而String类型的getBytes()方法默认使用UTF-8编码,如果需要转换Unicode编码需要指定编码方式为"Unicode"。 ### 回答2: Java 语言中,Unicode 编码用于表示各种语言的字符包括中文、英文、德文等等。当我们需要在 Java 代码中处理 Unicode 编码的字符时,需要进行编码转换。 编码转换的过程可以分为两步:Unicode 编码转换为字节数组,再将字节数组转换字符串。 第一步,我们可以使用 Java 标准类库中的 String 类的 getBytes() 方法将 Unicode 编码转换为字节数组。具体地,我们可以按照以下方式进行编码转换: ``` String str = "Hello World! 你好,世界!"; // 将此字符转换Unicode 编码 byte[] bytes = str.getBytes("Unicode"); // 将 Unicode 编码转换为字节数组 ``` 在这里,我们通过指定 getBytes() 方法的参数为“Unicode”,从而实现Unicode 编码转换为字节数组的功能。 第二步,我们可以使用 Java 标准类库中的 String 类的构造函数将字节数组转换字符串。具体地,我们可以按照以下方式进行编码转换: ``` String str = new String(bytes, "Unicode"); // 将字节数组转换字符串 ``` 在这里,我们通过指定 String 类构造函数的第二个参数为“Unicode”,从而实现了字节数组转换字符串的功能。 除了使用 String 类的 getBytes() 方法和构造函数进行编码转换,我们也可以使用 Java 标准类库中的 Charset 类和 CharsetEncoder、CharsetDecoder 类来进行编码转换。不过相比于使用 String 类的方法,使用 Charset 类进行编码转换的代码会稍微复杂一些。 总之,在 Java 语言中,我们可以通过多种方法实现 Unicode 编码转换字符或者字符转换Unicode 编码的功能。在实际工作中,我们应该根据具体的需求和场景,在多种方法中选择最适合自己的方法来进行编码转换。 ### 回答3: Java中使用Unicode编码可以支持多种语言和字符,但有时候需要把Unicode编码转换字符,或将字符转换Unicode编码。在Java中,可以使用各种API来完成这些转换Unicode编码是一种用来表示字符的标准编码方式,其中每个字符对应一个唯一的Unicode码点。在Java中,我们可以使用char类型来表示一个Unicode码点,用"\u"后面跟上4个十六进制数字表示。例如,'\u0041'表示字符"A"的Unicode编码。 如果我们需要将Unicode编码转换字符,我们可以使用Java中的Character类的静态方法chr(),这个方法接受一个Unicode码点作为参数,并返回与之对应的字符。例如,如果我们要把Unicode码点为\u0041转换字符,我们可以使用如下代码: char a = Character.chr(0x0041); 如果我们需要将字符转换Unicode编码,则可以使用Java中的Character类的静态方法codePointAt(),这个方法接受一个字符串和一个索引作为参数,并返回索引处的字符Unicode码点。例如,如果我们想要获取字符"A"的Unicode编码,我们可以使用如下代码: int unicode = Character.codePointAt("A",0); 除了Character类的API之外,还有其他的工具类和API可用于Unicode编码和字符转换。例如,使用Java中的UnicodeEscape类可以将字符串中的非ASCII字符转换Unicode编码,使用String类的getBytes()方法将字符转换为字节数组时,可以指定使用某种字符集编码,也可以使用Java中的Charset类指定字符集。这些工具和API可以根据需要使用。 总之,在Java中使用Unicode编码进行字符表示是很常见的。但如果需要在不同的编码之间进行转换,我们必须使用合适的API和技术,确保数据的正确性和一致性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值