乱码的原因

最新推荐文章于 2024-10-05 14:04:13 发布

南国勇者102324

最新推荐文章于 2024-10-05 14:04:13 发布

阅读量370

点赞数 1

文章标签：乱码编码字符原理凉州制造

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24003079/article/details/52032731

版权

乱码出现的原因：

乱码出现实际是使用错误的解码方式，像UTF-8中的中国，总占六个字节，(UTF8中一个汉字占三个字节)

却用GBK的解码方式去解，GBK的中国只占四个字节，(GBK中一个汉字占两个字节)

解码的动作变这样，错误可想而知

下面的一个1代表一个字节

111 111 --》 11 11 11

字节状态的汉字和内存中的汉字应该是不同的

内存中的汉字已经是汉字了(或者说是char类型)，它可以以任何编码输出

字节状态中的汉字只能以固定的编码解析

为什么以GBK为编码的中国在控制台会乱码呢，因为控制台设置的是utf-8,以utf-8解GBK

11 11 -> 111 1??

同样代码中的一些中文注释也是这个道理，GBK被以UTF-8解码，自然乱了

标准字符和非标准字符(就是ascii和非ascii)

为什么abc等一些字符不会乱码呢，无论是utf-8转gbk，还是转iso8859-1都不会呢？

原来。。。

以utf-8来说，它们的最左边那位，好像是叫符号位的东东，都是0，而汉字却是1，以此区分

所有编码方式应该都是按这个标准执行的，所以abc之流，不会乱码，

不论是utf-8,gbk中的abc都只占一字节。

下面以二进制展示例子：

（非标准字符（以GBK为例)）汉字 -> 1xxxxxxx 1xxxxxxx

（标准字符）abc之流 -> 0xxxxxxx

当然这个标和非标只是我理解出来的一个概念

南国勇者102324

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。