1. 测试代码
package demo.java.security;
import cn.hutool.core.util.HexUtil;
import cn.hutool.core.util.ReflectUtil;
import java.math.BigInteger;
import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;
public class UTF8Test {
public static void main(String[] args) throws Exception {
// String str = "ABC"; // US_ASCII // 0000—007F 基本拉丁字母
// String str = "©"; // ISO_8859_1, Latin1 // 0080—00FF 拉丁文补充1
String str = "中"; // 中文 - 基本平面 (中)
// String str = "\uD869\uDEA5"; // 中文 - 辅助平面 (𪚥)
System.out.println(str);
// 系统默认字符集是UTF-8
System.out.println(Charset.defaultCharset());
// JVM内部String用的编码是 UTF_16 + ISO_8859_1
System.out.println("内部编码\t\t\t\t" + toHex((byte[]) ReflectUtil.getFieldValue(str, "value")));
// US_ASCII 和 ISO_8859_1(Latin1), 不支持中文, 所以显示为 3F(?)
System.out.println("标准编码(US_ASCII)\t\t " + toHex(str.getBytes(StandardCharsets.US_ASCII)));
System.out.println("标准编码(ISO_8859_1)\t\t " + toHex(str.getBytes(StandardCharsets.ISO_8859_1)));
/**
* UTF-8, UTF-16, UTF-32 显示
* [Unicode字符百科] https://unicode-table.com/cn/4E2D/
*/
System.out.println("标准编码(UTF-8)\t\t " + toHex(str.getBytes(StandardCharsets.UTF_8)));
System.out.println("标准编码(UTF-16BE)\t " + toHex(str.getBytes(StandardCharsets.UTF_16BE)));
System.out.println("标准编码(UTF-16LE)\t " + toHex(str.getBytes(StandardCharsets.UTF_16LE)));
System.out.println("标准编码(UTF-32BE)\t " + toHex(str.getBytes("UTF_32BE")));
System.out.println("标准编码(UTF-32LE)\t " + toHex(str.getBytes("UTF_32LE")));
}
private static String toHex(byte[] bytes) {
// return new BigInteger(1, bytes).toString(16);
return HexUtil.encodeHexStr(bytes);
}
}
2. 测试效果