文本文件中存放的为字节序列,可以使用任意编码的字节序列
在中文机器上直接创建文本文件,则只能存储ANSI编码方式
文本文件本身能够识别任何形式的编码,但是直接创建的在中文机器上只能识别ANSI的编码。从其他位置复制过来的其他编码的文本文件都是可以识别的
在Eclipse中,每个项目都只能识别本项目的默认编码,直接复制过去的文本文件中的内容不能被识别,但是将文本文件中的内容进行复制,则粘贴到其他类型编码的文件中可以自动进行类型的转换
接下来我们就对各宗编码方式进行测试吧!
String s = "我爱你ABC";
byte[] arr = s.getBytes();// 将字符串转换成字节
for (byte b : arr) {
System.out.print(Integer.toHexString(b & (0xff)) + " ");// 将字节转换成16进制的形式显示,并选择项目的默认编码(UTF-8)
}
System.out.println();
byte[] arr1=s.getBytes("gbk");//GBK编码中文占连个字节,英文占一个字节
for (byte b : arr1) {
System.out.print(Integer.toHexString(b & (0xff)) + " ");
}
System.out.println("");
byte[] arr2=s.getBytes("utf-8");
for (byte b : arr2) {
System.out.print(Integer.toHexString(b&(0xff))+" ");//utf-8编码中文占用3个字节,英文占用1个字节
}
System.out.println();
//java是双字节编码,utf-16be;
byte[] arr3=s.getBytes("utf-16be");
for (byte b : arr3) {
System.out.print(Integer.toHexString(b&(0xff))+" ");//utf-16be编码中文占用两个字节,英文占用两个字节
}
System.out.println();
/*当某一字节序列是某种编码时,若想把该字节序列变成字符串,也需要使用这种编码,否则会出现乱码*/
String str=new String(arr3);//项目默认的编码方式
System.out.print(str);
System.out.println();
//设置编码格式
String str1=new String(arr3,"utf-16be");
System.out.println(str1);
运行结果如下:
e6 88 91 e7 88 b1 e4 bd a0 41 42 43
ce d2 b0 ae c4 e3 41 42 43
e6 88 91 e7 88 b1 e4 bd a0 41 42 43
62 11 72 31 4f 60 0 41 0 42 0 43
我爱你ABC