什么是字符集编码?字节和不同的编码方式又有什么关系呢?

 

博主的理解:

首先要明白: 8 bit = 1 byte  即八个(位)等于一个(字节),一个位就是一个0或一个1。好多好多的(位)10100101001001010101010101001010100100010组合在一起就成了字节流。这玩意我们看不懂,我们只能看懂字符啊,于是就有了编码方式,就是我们常说的utf-8、ISO8859-1、GBK等,它们只是一种对应关系,比如按ISO8859-1编码方式,10000111对应的字符是“H”,那么我们可以按照ISO8859-1将10000111解码成字符“H”,也可以将字符“H”编码成10000111。

字符是我们大家可以理解的一种符号,比如英语字母“a”、汉字“肾”等,当然单词“apple”、成语“额滴肾啊”也是字符啦,而通过不同的编码方式,对这些字符串进行编码形成的01字节流,长度也可能是不同的,比如按照utf-8的话,一个字符“大”就占3个字节(100101111001011110010111),但对于GBK来说,它只占了两个字节(1001011110100011),在这个编码的过程中,是可能会出现乱码的,比如ISO8859-1的编码方式里没有汉字的对应方式,它只能识别英文字母以及一些符号(人家就八位嘛,最多也不过只能有二的八次方=256种可能的组合而已,怎么来能用来代表几万种汉字呢)所以用ISO8859-1来对汉字进行编码的话就会产生乱码。解码的过程,就是把字节流解码为我们可以理解的字符,比如按照ISO8859-1将10000111解码为“H”,这个解码过程自然也会可能出现乱码,如果我们改用GBK编码方式去对10000111进行解码的话,解出来的字符就肯定不会是“H”了,而是我们看不懂的乱码。

还有一个有趣的现象,那就是对单词“apple”进行编码的时候,用GBK和用ISO8859-1是一样的结果,这不是巧合,而是我们在制定GBK时便规定如此,在GBK中,英文字母及一些特殊字符对应的字节流和ISO8859-1标准是一致的,也就是说英文字母在GBK中也占1个字节,这在一定程度上降低了乱码的概率:

        String str = "apple";
        System.out.println(Arrays.toString(str.getBytes("ISO8859-1")));
        System.out.println(Arrays.toString(str.getBytes("GBK")));

输出:

[97, 112, 112, 108, 101]
[97, 112, 112, 108, 101]

所以下列代码最后输出还是“apple”,原因就很容易理解了:

        String str = "apple";
        //将字符传str按照GBK的方式编码成01字节流,再调用String的构造方法将该字节流以ISO8859-1方式解码成一个新的字符串。
        String n = new String(str.getBytes("GBK"), "ISO8859-1");
        System.out.println(n);

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

请保持优秀。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值