什么是字符集编码？字节和不同的编码方式又有什么关系呢？

最新推荐文章于 2020-02-13 21:58:39 发布

请保持优秀。

最新推荐文章于 2020-02-13 21:58:39 发布

阅读量2.6k

点赞数

分类专栏： java基础文章标签：编码

本文链接：https://blog.csdn.net/IT_TIfarmer/article/details/102503552

版权

java基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

博主的理解：

首先要明白： 8 bit = 1 byte 即八个（位）等于一个（字节），一个位就是一个0或一个1。好多好多的（位）10100101001001010101010101001010100100010组合在一起就成了字节流。这玩意我们看不懂，我们只能看懂字符啊，于是就有了编码方式，就是我们常说的utf-8、ISO8859-1、GBK等，它们只是一种对应关系，比如按ISO8859-1编码方式，10000111对应的字符是“H”，那么我们可以按照ISO8859-1将10000111解码成字符“H”,也可以将字符“H”编码成10000111。

字符是我们大家可以理解的一种符号，比如英语字母“a”、汉字“肾”等，当然单词“apple”、成语“额滴肾啊”也是字符啦，而通过不同的编码方式，对这些字符串进行编码形成的01字节流，长度也可能是不同的，比如按照utf-8的话，一个字符“大”就占3个字节（100101111001011110010111），但对于GBK来说，它只占了两个字节（1001011110100011），在这个编码的过程中，是可能会出现乱码的，比如ISO8859-1的编码方式里没有汉字的对应方式，它只能识别英文字母以及一些符号（人家就八位嘛，最多也不过只能有二的八次方=256种可能的组合而已，怎么来能用来代表几万种汉字呢）所以用ISO8859-1来对汉字进行编码的话就会产生乱码。解码的过程，就是把字节流解码为我们可以理解的字符，比如按照ISO8859-1将10000111解码为“H”,这个解码过程自然也会可能出现乱码，如果我们改用GBK编码方式去对10000111进行解码的话，解出来的字符就肯定不会是“H”了，而是我们看不懂的乱码。

还有一个有趣的现象，那就是对单词“apple”进行编码的时候，用GBK和用ISO8859-1是一样的结果，这不是巧合，而是我们在制定GBK时便规定如此，在GBK中，英文字母及一些特殊字符对应的字节流和ISO8859-1标准是一致的，也就是说英文字母在GBK中也占1个字节，这在一定程度上降低了乱码的概率：
        String str = "apple";
        System.out.println(Arrays.toString(str.getBytes("ISO8859-1")));
        System.out.println(Arrays.toString(str.getBytes("GBK")));
输出：
[97, 112, 112, 108, 101]
[97, 112, 112, 108, 101]
所以下列代码最后输出还是“apple”，原因就很容易理解了：
        String str = "apple";
        //将字符传str按照GBK的方式编码成01字节流，再调用String的构造方法将该字节流以ISO8859-1方式解码成一个新的字符串。
        String n = new String(str.getBytes("GBK"), "ISO8859-1");
        System.out.println(n);

请保持优秀。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
什么是字符集编码？字节和不同的编码方式又有什么关系呢？

博主的理解：首先要明白： 8 bit = 1 byte 即八个（位）等于一个（字节），一个位就是一个0或一个1。好多好多的（位）10100101001001010101010101001010100100010组合在一起就成了字节流。这玩意我们看不懂，我们只能看懂字符啊，于是就有了编码方式，就是我们常说的utf-8、ISO8859-1、GBK等，它们只是一种对应关系，比如按ISO88...
复制链接

扫一扫