[Java]字符串转Unicode编码额外2个字节的来源

转载:

https://blog.csdn.net/iteye_3946/article/details/81640056

https://www.zhihu.com/question/23374078/answer/69732605

 

为了在读取字节时能知道所采用的字节序,在传输时采用了一个名为 “ZERO WIDTH NON-BREAKING SPACE”(U+FEFF)的字符用于限定字节序, 开头两个字节为 FE FF 时为 Big-Endian,为 FF FE 时为 Little-Endian。  详见 RFC2781 3.2 节。  

在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分,并加上 BOM。   如果采用 UTF-16 拆分,在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。

Little-Endian:就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。

Big-Endian:就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。

为什么UTF-8中看不到BOM头?

Unicode符号范围        |   UTF-8编码方式

(十六进制)             | (二进制)       #Unicode部分为16进制编码, UTF-8编码为2进制

—————————————————————–————————————–
0000-0000 007F   | 0xxxxxxx      #UTF-8规定,若1字符=1字节,首位须为‘0’
0080-0000 07FF   | 110xxxxx 10xxxxxx  #UTF-8规定,若1字符=2字节,高位字节前3位为‘110’,低位前2位为‘10’
0800-0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx  #UTF-8规定,若1字符=3字节,高位字节前3位为‘110’,后面低位前2位一律为‘10’。(占4,5字节字符规则以此类推)

UTF-8 是采用 1~4 个字节来表示 Unicode 字符的,每个 Unicode 的 UTF-8 编码的 第一个字节是有一定范围的,如果读取到某个字节的最高位为 0 那么采用一个字节表 示,如果最高位是两个“1”就采用两个字节表示,最高位是三个“1”采用三个字节表 示,以此类推。多字节表示时,第二个和后面的字节的最高位只能是“10”,也就是说 UTF-8 编码时字符的第一个字节的最高位不可能是“10”。  因此,UTF-8 只能采用 Big-Endian 的 BOM 方式。BOM 头 U+FEFF,UTF-8 编码为 EF BB BF 就隐含掉了。

测试:

System.out.println("Unicode");
System.out.println("中"+Arrays.toString("中".getBytes("Unicode")));
System.out.println("文"+Arrays.toString("文".getBytes("Unicode")));
System.out.println("中文"+Arrays.toString("中文".getBytes("Unicode")));

System.out.println("UTF-8");
System.out.println("中"+Arrays.toString("中".getBytes("UTF-8")));

System.out.println("GBK");
System.out.println("中"+Arrays.toString("中".getBytes("GBK")));

输出:

在输出结果中可以看到,将字符串转换成Unicode编码的字节数组时,数组存在额外字节-2,-1。字节-2的补码为0xFE,字节-1的补码为0xFF,连起来FEFF表示Big-Endian。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值