博主的理解:
首先要明白: 8 bit = 1 byte 即八个(位)等于一个(字节),一个位就是一个0或一个1。好多好多的(位)10100101001001010101010101001010100100010组合在一起就成了字节流。这玩意我们看不懂,我们只能看懂字符啊,于是就有了编码方式,就是我们常说的utf-8、ISO8859-1、GBK等,它们只是一种对应关系,比如按ISO8859-1编码方式,10000111对应的字符是“H”,那么我们可以按照ISO8859-1将10000111解码成字符“H”,也可以将字符“H”编码成10000111。
字符是我们大家可以理解的一种符号,比如英语字母“a”、汉字“肾”等,当然单词“apple”、成语“额滴肾啊”也是字符啦,而通过不同的编码方式,对这些字符串进行编码形成的01字节流,长度也可能是不同的,比如按照utf-8的话,一个字符“大”就占3个字节(100101111001011110010111),但对于GBK来说,它只占了两个字节(1001011110100011),在这个编码的过程中,是可能会出现乱码的,比如ISO8859-1的编码方式里没有汉字的对应方式,它只能识别英文字母以及一些符号(人家就八位嘛,最多也不过只能有二的八次方=256种可能的组合而已,怎么来能用来代表几万种汉字呢)所以用ISO8859-1来对汉字进行编码的话就会产生乱码。解码的过程,就是把字节流解码为我们可以理解的字符,比如按照ISO8859-1将10000111解码为“H”,这个解码过程自然也会可能出现乱码,如果我们改用GBK编码方式去对10000111进行解码的话,解出来的字符就肯定不会是“H”了,而是我们看不懂的乱码。
还有一个有趣的现象,那就是对单词“apple”进行编码的时候,用GBK和用ISO8859-1是一样的结果,这不是巧合,而是我们在制定GBK时便规定如此,在GBK中,英文字母及一些特殊字符对应的字节流和ISO8859-1标准是一致的,也就是说英文字母在GBK中也占1个字节,这在一定程度上降低了乱码的概率:
String str = "apple"; System.out.println(Arrays.toString(str.getBytes("ISO8859-1"))); System.out.println(Arrays.toString(str.getBytes("GBK")));
输出:
[97, 112, 112, 108, 101] [97, 112, 112, 108, 101]
所以下列代码最后输出还是“apple”,原因就很容易理解了:
String str = "apple"; //将字符传str按照GBK的方式编码成01字节流,再调用String的构造方法将该字节流以ISO8859-1方式解码成一个新的字符串。 String n = new String(str.getBytes("GBK"), "ISO8859-1"); System.out.println(n);