java 二进制转ascii码_Unicode码的二进制转换(Java)

最新推荐文章于 2024-07-13 03:30:27 发布

weixin_39981681

最新推荐文章于 2024-07-13 03:30:27 发布

阅读量894

点赞数

文章标签： java 二进制转ascii码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39981681/article/details/114216657

版权

内容为个人学习心得，不能对准确性做过多保证，错误之处还望指点。

有时候我们会遇到一些\u开头的字符串，例如\u4f60\u597d，我们知道这些是Unicode码，一段\uxxxx字符串对应了一个Unicode字符。那这些编码字符的实际二进制存储格式是怎样呢？

我们知道Unicode编码可以呈现世界上大部分的文字内容，而在其最通用的一种编码方式UTF-8

)下,单字符的存储长度为1-4字节(可变)，这种设计的由来和优点就不多讲了，这里主要说说看到的u编码串和二进制的换算方式。

在UTF-8编码格式的java代码下，对“测试”两个字打印其字节和字符结果如下：

System.out.println(Charset.defaultCharset());

String s = "测试";

System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));

byte[] bs = s.getBytes();

System.out.println(Arrays.toString(bs));

/*Result:

UTF-8

6d4b 8bd5

[-26, -75, -117, -24, -81, -107] */

观察结果可知，“测试”两个字在UTF-8编码下占六个字节，将【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格式，即得到“测试”两字的二进制存储内容，为：

11100110 10110101 10001011 11101000 10101111 10010101

而通过char.ToHexString得到的 6d4b 8bd5 是这两个字的Unicode编码

这两者是怎么关联上的呢?

通过UTF-8的百科页面有如下介绍：

UTF-8编码字节含义

对于UTF-8编码中的任意字节B，如果B的第一位为0，则B独立的表示一个字符(ASCII码)；

如果B的第一位为1，第二位为0，则B为一个多字节字符中的一个字节(非ASCII字符)；

如果B的前两位为1，第三位为0，则B为两个字节表示的字符中的第一个字节；

如果B的前三位为1，第四位为0，则B为三个字节表示的字符中的第一个字节；

如果B的前四位为1，第五位为0，则B为四个字节表示的字符中的第一个字节；

因此，对于上面得到的二进制串，每8位中的前面部分都是用来做标记的，1110开头表明需要3个字节来描述当前字符，并且当前字节为3字节中的第一部分，后面的字节使用10开头表明自己是当前字符编码串的后面部分。

把前三字节这些标记为去掉再合并，得到 0110 110101 001011，而“测”字的16进制Unicode编码转为二进制，正是0110 1101 0100 1011。

这样做的优点很明显，扩展方便(看起来能支持到8字节编码呢)，编码结构去掉了二进制的标记位，减小体积更易于数据传输。1字节的UTF-8码还完整兼容了ASCII码，所以UTF-8可以说应该是大部分场景下的最优选择了。

weixin_39981681

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。