getBytes()

最新推荐文章于 2023-09-10 16:31:44 发布

pb_watercuizhen

最新推荐文章于 2023-09-10 16:31:44 发布

阅读量271

点赞数

分类专栏： java 文章标签： JVM .net HTML

本文链接：https://blog.csdn.net/pb_watercuizhen/article/details/83637164

版权

java 专栏收录该内容

56 篇文章 0 订阅

订阅专栏

http://www.blogjava.net/pengpenglin/archive/2010/02/22/313647.html

[size=large]

getBytes()、getBytes(encoding)函数的作用是使用系统默认或者指定的字符集编码方式，将字符串编码成字节数组。

在中文平台下，默认的字符集编码是GBK，此时如果使用getBytes()或者getBytes("GBK")，则按照GBK的编码规则将每个中文字符用2个byte表示。所以我们看到"中文"最终GBK编码结果就是： -42 -48 -50 -60 。-42和-48代表了"中"字，而"-50"和"-60"则代表了"文"字。

在中文平台下，如果指定的字符集编码是UTF-8，那么按照UTF-8对中文的编码规则：每个中文用3个字节表示，那么"中文"这两个字符最终被编码成：-28 -72 -83、-26 -106 -121两组。每3个字节代表一个中文字符。

在中文平台下，如果指定的字符集编码是ISO-8859-1，由于此字符集是单字节编码，所以使用getBytes("ISO-8859-1")时，每个字符只取一个字节，每个汉字只取到了一半的字符。另外一半的字节丢失了。由于这一半的字符在字符集中找不到对应的字符，所以默认使用编码63代替，也就是?。

在英文平台下，默认的字符集编码是Cp1252(类似于ISO-8859-1)，如果使用GBK、UTF-8进行编码，得到的字节数组依然是正确的(GBK4个字节，UTF-8是6个字节)。因为在JVM内部是以Unicode存储字符串的，使用getBytes(encoding)会让JVM进行一次Unicode到指定编码之间的转换。对于GBK，JVM依然会转换成4个字节，对于UTF-8，JVM依然会转换成6个字节。但是对于ISO-8859-1，则由于无法转换(2个字节--->1个字节，截取了一半的字节)，所以转换后的结果是错误的。

相同的平台下，同一个中文字符，在不同的编码方式下，得到的是完全不同的字节数组。这些字节数组有可能是正确的(只要该字符集支持中文)，也可能是完全错误的(该字符集不支持中文)。

记住：

不要轻易地使用或滥用String类的getBytes(encoding)方法，更要尽量避免使用getBytes()方法。因为这个方法是平台依赖的，在平台不可预知的情况下完全可能得到不同的结果。如果一定要进行字节编码，则用户要确保encoding的方法就是当初字符串输入时的encoding。[/size]

pb_watercuizhen

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
getBytes()

http://www.blogjava.net/pengpenglin/archive/2010/02/22/313647.html[size=large]getBytes()、getBytes(encoding)函数的作用是使用系统默认或者指定的字符集编码方式，将字符串编码成字节数组。在中文平台下，默认的字符集编码是GBK，此时如果使用getBytes()或者getByt...
复制链接

扫一扫