JVM 字符编解码 UTF-8 UTF-16

最新推荐文章于 2024-04-25 15:05:43 发布

HiCoderMan

最新推荐文章于 2024-04-25 15:05:43 发布

阅读量3.9k

点赞数 7

分类专栏： Java 文章标签： jvm utf-8 编码 string

本文链接：https://blog.csdn.net/u200814499/article/details/53420263

版权

Java 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

背景

关于字符编码问题，印象深刻的有两次：

JNI层获取JVM中Emoji表情出错，上层看到4个字节，到JNI层拿出来成了6个字节
面试中一道笔试题

byte[] a = new byte[]{(byte) 0xc6, (byte) 0xd0};
String s = new String(a);
byte[] b = s.getBytes();
问：最后a和b的内容是否相等？

这里分析下笔试中的题目。

过程

直接敲代码调试：
字符编解码
从图中看到a数组2个字节，b数组6个字节，内容不同。
但是，为什么不同？这些数字是怎么计算出来的？

首先，我知道JVM内部是以UTF-16形式存储字符，那看下内部存了什么数：
FFFD
找Stack Overflow问：
malformed data
在尝试解析输入流时碰到了畸形的数据，被替换为Unicode U+FFFD

去Unicode官网验证：

确实没骗人。

再看默认解码方式：
默认解码UTF-8

Unicode使用UTF-8解码
Unicode UTF-8

Unicode 使用UTF-16编码
这里写图片描述

现在看下UTF-8的输入流数据：

byte[] a = new byte[]{(byte) 0xc6, (byte) 0xd0};

在看下内存：
输入不合法
底层在从前往后解析数据时，发现0b11000110, 0b11010000不符合UTF-8的规范:
这里写图片描述
也就是第二个字节应该是10开头，但是我们的输入第二个字节是110开头，故只能解码成0xFFFD这个Unicode，然后这个需要用UTF-16编码存放在内存中，最后我们看到了两个0xFFFD。

接下来b数组里面的数据是两个0xFFFD经过UTF-16解码成Unicode数字，然后用UTF-8编码后的数据。这个转化过程照着上面的转换表格做就可以完成，算一次印象会深刻很多。

总结

//UTF-8字节流
byte[] a = new byte[]{(byte) 0xc6, (byte) 0xd0};
//解码成字符char, JVM内部采用UTF-16编码存储字符
String s = new String(a);
//UTF-16字节流编码成UTF-8字节流输出
byte[] b = s.getBytes();

三行代码对数据做了以下事情：

UTF-8输入流到Unicode数字的解码
Unicode到UTF-16的编码
UTF-16输入流到Unicode数字的解码
Unicode到UTF-8的编码的输出流

综上，Unicode是个数，可以用UTF-8/UTF-16编码传输，占用流量/空间少，需要有输入、输出流的概念，以流的思考方式去处理数据

参考

HiCoderMan

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
JVM 字符编解码 UTF-8 UTF-16

背景关于字符编码问题，印象深刻的有两次：JNI层获取JVM中Emoji表情出错，上层看到4个字节，到JNI层拿出来成了6个字节面试中一道笔试题byte[] a = new byte[]{(byte) 0xc6, (byte) 0xd0};String s = new String(a);byte[] b = s.getBytes();问：最后a和b的内容是否相等？这里分析下笔试中的题目。
复制链接

扫一扫