getBytes("UTF-16")长度多2的原因

public class Main {
public static void main(String[] args) throws UnsupportedEncodingException {
String a="a";
System.out.println(a.length());
byte[] bb= a.getBytes("UTF-16");
System.out.println(binary(bb,16));


System.out.println(bb.length);

}

public static String binary(byte[] bytes, int radix){
return new BigInteger(1, bytes).toString(radix);
}
}

结果是
1
feff0061
4
[size=medium]为什么getBytes("UTF-16")之后byte数组的长度是4呢?不应该是2吗[/size]
[size=medium]我们来具体看下 0061 就是a的二进制表示,那前面的feff是什么东西呢?


在wiki上我们可以看到:
UTF-16的大尾序和小尾序存储形式都在用。一般来说,以Macintosh制作或存储的文字使用大尾序格式,以Microsoft或Linux制作或存储的文字使用小尾序格式。
为了弄清楚UTF-16文件的大小尾序,在UTF-16文件的开首,都会放置一个U+FEFF字符作为Byte Order Mark(UTF-16LE以FF FE代表,UTF-16BE以FE FF代表),以显示这个文本文件是以UTF-16编码,其中U+FEFF字符在UNICODE中代表的意义是ZERO WIDTH NO-BREAK SPACE,顾名思义,它是个没有宽度也没有断字的空白。

原来FE FF代表 UTF-16BE ,就是大尾序格式,显示的是0061
可以看到我们换成
byte[] bb= a.getBytes("UTF-16BE"); 得到的结果就是0061了
反之
byte[] bb= a.getBytes("UTF-16LE"); 得到的结果就是6100了[/size]

[size=large]结论:getBytes("UTF-16")的byte长度会比我们预期的多2,就是两个byte开头要指定是大尾格式,还是小尾格式 。。[/size]
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如果在Java中将UTF-8编码的字符串转换为GBK编码时出现乱码,通常是由于编码不一致或者字节流不完整所导致的。可以尝试以下几种方法解决: 1. 检查源字符串的编码是否为UTF-8 确保源字符串的编码为UTF-8,可以使用以下代码进行检查: ```java String utf8Str = "你好,世界!"; byte[] utf8Bytes = utf8Str.getBytes("UTF-8"); String utf8Check = new String(utf8Bytes, "UTF-8"); System.out.println(utf8Check.equals(utf8Str)); // true ``` 如果输出结果为true,则表示源字符串的编码为UTF-8,否则需要先将其转换为UTF-8编码。 2. 检查目标编码是否为GBK 确保目标编码为GBK,可以使用以下代码进行检查: ```java String gbkStr = "你好,世界!"; byte[] gbkBytes = gbkStr.getBytes("GBK"); String gbkCheck = new String(gbkBytes, "GBK"); System.out.println(gbkCheck.equals(gbkStr)); // true ``` 如果输出结果为true,则表示目标编码为GBK,否则需要将目标编码修改为GBK。 3. 使用正确的字符集名称 在进行编码转换时,必须使用正确的字符集名称。可以使用以下代码查看系统支持的字符集名称: ```java Map<String, Charset> charsetMap = Charset.availableCharsets(); System.out.println(charsetMap.keySet()); ``` 如果输出结果中包含GBK编码,则可以在转换时使用"GBK"作为目标编码。 4. 使用正确的字节长度 在将字节数组转换为字符串时,必须使用正确的字节长度。可以使用以下代码进行检查: ```java String gbkStr = "你好,世界!"; byte[] gbkBytes = gbkStr.getBytes("GBK"); String utf8Str = new String(gbkBytes, "UTF-8"); System.out.println(utf8Str); ``` 如果输出结果为乱码,则表示字节长度不正确,可以尝试增加字节长度或者使用其他的转换方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值