初识乱码（上）

最新推荐文章于 2023-07-25 22:39:54 发布

u011480276

最新推荐文章于 2023-07-25 22:39:54 发布

阅读量1.2k

点赞数 1

分类专栏：编码文章标签：编码解码

本文链接：https://blog.csdn.net/zslblog/article/details/82756252

版权

编码专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一：乱码问题背景

window平台下，cocos中，模拟器输出窗口能够输出中文，将日志写入文件时却出现了乱码。

输出中文到模拟器：

输出中文到文件：

二：问题分析

为什么会乱码？产生乱码的原因无非就两个：

1. 正确的二进制，但用错误的编码读取

这种方式比较简单，转换下编码即可。例如我字GBK二进制为 11001110 11010010，（十六进制表现形式：CE D2），如果这时候用UTF8去读，则是 B 。

UTF-8编码规则：如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8转换表表示如下：

UTF-8	byte数	备注
0XXX XXXX	1
110X XXXX 10XX XXXX	2
1110XXXX 10XX XXXX 10XX XXXX	3	基本定义范围：0~FFFF
1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX	4	Unicode6.1定义范围：0~10 FFFF
1111 10XX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX	5	说明：此非unicode编码范围，属于UCS-4 编码
1111 110X 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX	6	说明：此非unicode编码范围，属于UCS-4 编码

根据上面的UTF8编码规则表，和二进制11001110 10010010，我们来看下是怎么读成了B。

获取该编码对应的UNICODE编码，11001110 10010010 为两个字节，查找UTF8编码表中byte数为2的格式：

110X XXXX 10XX XXXX ,对应取出X的位置，01110 010010 不足2个字节，左边补0，UNICODE编码二进制为：0000 0011 1001 0010 （十六进制表现形式：03 92 ）
查UNICOE编码表，可以知道 03 92 对应的是 B ：
此时的二进制编码没有被改变，查GBK编码表，CE D2 对应的是我 :

总结：

从上面的分析可以知道，只要二进制不被改变，乱码可通过使用其他编码方式读取进行恢复。

2. 错误的二进制，这时候无论是用什么编码读取都是有问题的

这种方式的乱码就比较难恢复，因为二进制发生了变化，想要恢复到之前的编码，需要进行试错。怎么试错呢？我们分两步来做：

模拟二进制被改变后产生乱码
恢复乱码

还是以我字分析，GBK编码 11001110 11010010，（十六进制表现形式：CE D2），如果这个二进制被错误的当成了UTF8，则其二进制码是：11100110 10001000 10010001 3个字节（十六进制表现形式：E6 88 91 ），这时用GBK进行读取，11100110 10001000 是鎴，10010001 则无法查到，因为最高位是 1 则表明需要两个字节，那么我们假设分析的是我我这时UTF8的二进制是 11100110 10001000 10010001 11100110 10001000 10010001 ，则GBK读取后是 鎴戞垜 。

分析后可用Python进行验证：

print("我".encode("GBK")) #编码结果 b'\xce\xd2'
print("我".encode("UTF8")) #编码结果 b'\xe6\x88\x91\xe6\x88\x91'
print("我我".encode("UTF8").decode("GBK")) #结果 鎴戞垜

乱码已经模拟出来了，那么如何恢复乱码呢？逆推。

print("鎴戞垜".encode("GBK")) #结果 b'\xe6\x88\x91\xe6\x88\x91'
print(binascii.a2b_hex("e68891e68891").decode('utf8')) #结果 我我
#这时候虽然看到的是 我我 ，但其二进制编码仍然是  b'\xe6\x88\x91\xe6\x88\x91'
print("鎴戞垜".encode("GBK").decode("UTF8").encode('GBK')) #结果 b'\xce\xd2'
#这时才是原本的二进制编码，
print("鎴戞垜".encode("GBK").decode("UTF8").encode('GBK').decode('GBK')) #结果 我我