使用一段java
代码来解释字符编码。
需要的基础知识有UTF-8、ANSI、GBK、ISO-8859-1 ASCII、UNICODED等编码方式。
- GBK
是针对中文字符的编码,使用2字节
存储。 - ASCII
就是平常最容易见的字母和数字的编码方式, 使用1字节
存储。 - UNICODED
任何字符都能以UNICODED 编码。为什么呢?因为UNICODED在存储的时候占4字节
,范围为0x0000-0xFFFF(0-65536).相当于每一个字符可以有16位表示,一共65536种组合,可以容纳世界上所有的语言文字。 - UTF-8
是对UNICODED编码的一种压缩,中文以3字节
存储,英文以2字节
存储。因为UNICODED虽然存储量大,但浪费存储空间,比如汉字就没必要用这么4个字节存储,2个字节足够。 - ANSI
存储为ANSI编码方式,意味着跟操作系统对应,比如在存贮txt文件时,指定为ANSI编码方式则意味着你编辑的东西跟操作系统编码一致,如果中文的话就是GBK的方式。
下面就来看编码的理解,使用FileInputStream
流的read()
方法读取文件中的字符,以16进制打印出来。encoding.txt
这个文件的编码方式指定为GBK。那如何在代码中打印出来txt里面存储的文件呢,使用String(bytes,"GBK");
将打印出的字节以GBK的方式显示。
总结:就是使用是什么方式编码文件,则相应的使用什么编码方式打印出来。
public class TestCode {
public static void main(String[] args) {
File file =new File("C:\\Users\\10262863\\Desktop\\encoding.txt");
try {
FileInputStream fos = new FileInputStream(file);
byte[] bytes =new byte[(int) file.length()];
fos.read(bytes);
for(byte b:bytes) {
int i = b&0x000000ff;
System.out.println(Integer.toHexString(i));
}
String str = new String(bytes,"GBK");
System.out.println(str);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}