根据编码格式不一样,对应的字节也不一样
- 如果是UTF-8:一个中文对应的是三个字节
- 如果是GBK:一个中文对应的是2个字节
默认使用UTF-8
public class ByteBitDemo {
public static void main(String[] args) throws Exception{
String a = "中";
byte[] bytes = a.getBytes();
for (byte aByte : bytes) {
System.out.println(aByte);
String s = Integer.toBinaryString(aByte);
System.out.println(s);
}
}
}
SHOW— byte对应bit
运行程序:我们发现一个中文是有 3 个字节组成
设置为GBK
public class ByteBitDemo {
public static void main(String[] args) throws Exception{
String a = "中";
byte[] bytes = a.getBytes("GBK");
for (byte aByte : bytes) {
System.out.println(aByte);
String s = Integer.toBinaryString(aByte);
System.out.println(s);
}
}
}
SHOW— byte对应bit
我们修改 编码格式 , 编码格式改成 GBK ,我们在运行发现变成了 2 个字节
我们在看看英文,在不同的编码格式占用多少字节
- 默认在UTF-8下
public class ByteBitDemo {
public static void main(String[] args) throws Exception{
String a = "a";
byte[] bytes = a.getBytes();
for (byte aByte : bytes) {
System.out.println(aByte);
String s = Integer.toBinaryString(aByte);
System.out.println(s);
}
}
}
SHOW
英文在UTF-8下占用1个字节
- GBK下
public class ByteBitDemo {
public static void main(String[] args) throws Exception{
String a = "a";
byte[] bytes = a.getBytes("GBK");
for (byte aByte : bytes) {
System.out.println(aByte);
String s = Integer.toBinaryString(aByte);
System.out.println(s);
}
}
}
SHOW
所以如果是英文,没有编码概念,全部对应一个字节
而在中文情况下,不同的编码格式,对应不同的字节