unicode下的String

最新推荐文章于 2023-08-17 23:10:05 发布

hjjk888

最新推荐文章于 2023-08-17 23:10:05 发布

阅读量148

点赞数

分类专栏：基础递进文章标签： Java HTML

本文链接：https://blog.csdn.net/hjjk888/article/details/83677554

版权

基础递进专栏收录该内容

18 篇文章 0 订阅

订阅专栏

先看一个代码


String o="1";
System.out.println(o.getBytes("unicode").length);
System.out.println(o.getBytes("iso-8859-1").length);
System.out.println(o.getBytes("gbk").length);

输出
4
1
1
首先unicode对字符是采用双字节存储也就是这里一个是两个字节！可能在开头或者结尾有种结尾符！！

为了在读取字节时能知道所采用的字节序，在传输时采用了一个名为
“ZERO WIDTH NON-BREAKING SPACE”（U+FEFF）的字符用于限定字节
序，开头两个字节为 FE FF 时为 Big-Endian，为 FF FE 时为 Little-Endian。
详见 RFC2781 3.2 节。

在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分，并加上 BOM。

如果采用 UTF-16 拆分，在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。

看这个连接理解 rfc
[url]http://www.docin.com/p-6587198.html[/url]