如何根据乱码现象来分析转码出错的原因

最新推荐文章于 2024-05-27 17:40:49 发布

followingturing

最新推荐文章于 2024-05-27 17:40:49 发布

阅读量1.5k

点赞数

分类专栏：其余未分类的杂~~

其余未分类的杂~~ 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

如何根据乱码现象来分析转码出错的原因

中文乱码的问题是一个普遍遇到的问题，由于中西方编码方式的不同，单字节编码的方式在多字节编码的中文环境下经常会遇到转码后显示成“?”的问题，并且由于UTF-8，GBK，GB2312的差异也会导致一些莫名其妙的中文乱码出现。计算机环境下对字符串传输或存储需要经过先编码（编成字节流）后解码（转成字符串）的过程，因此，这么多种编码方式的并存，在编码和解码的过程中造成的乱码情况就会非常多。开发人员或许会根据经验处理其中的某几种情况，现场或用户更是一筹莫展，有没有办法根据现象来快速分析出出错的原因呢？或者总结出其中的规律？

以下以字符串“中*旻”为例，列举出经过常见编码方式两两组合进行转换的情形：

序号

编码方式

编码后的字节码

解码方式

解码后显示

1

UTF-8

-28 -72 -83 42 -26 -105 -69

UTF-8

中*旻

2

UTF-8

-28 -72 -83 42 -26 -105 -69

GBK

涓?*鏃?

3

UTF-8

-28 -72 -83 42 -26 -105 -69

GB2312

涓?*???

4

UTF-8

-28 -72 -83 42 -26 -105 -69

ISO-8859-1

???*???

5

GBK

-42 -48 42 -107 70

UTF-8

??*?F

6

GBK

-42 -48 42 -107 70

GBK

中*旻

7

GBK

-42 -48 42 -107 70

GB2312

中*?F

8

GBK

-42 -48 42 -107 70

ISO-8859-1

??*?F

9

GB2312

-42 -48 42 63

UTF-8

??*?

10

GB2312

-42 -48 42 63

GBK

中*?

11

GB2312

-42 -48 42 63

GB2312

中*?

12

GB2312

-42 -48 42 63

ISO-8859-1

??*?

13

ISO-8859-1

63 42 63

UTF-8

?*?

14

ISO-8859-1

63 42 63

GBK

?*?

15

ISO-8859-1

63 42 63

GB2312

?*?

16

ISO-8859-1

63 42 63

ISO-8859-1

?*?

表面上看来情形众多，没有头绪，其实有规可循：

首先，从表中可以看出只有UTF-8、UTF-8和GBK、GBK之间互转是没有问题的，其他都或多或少存在问题；

其次，使用单字节编码方式的“ISO-8859-1”是不能够用于中文的编码或解码的，只要有其参与的转换，都会出现“?”，因此如果出现一个汉字变成一个问号的情形，一般是错误的使用了类似“ISO-8859-1”的单字节编码方式对汉字进行了编码；

另外，由于UTF-8多使用三个字节来编码一个汉字，而GBK和GB2312使用两个字节，并且GB2312不能处理类似“旻”这样的生僻字，因此如果出现汉字变成没有问号的乱码或部分问号加汉字的情形，基本上可以断定是这三者之间的两两转换出了问题，建议在编码解码的过程中统一采用UTF-8或者GBK的方式。

followingturing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何根据乱码现象来分析转码出错的原因

如何根据乱码现象来分析转码出错的原因中文乱码的问题是一个普遍遇到的问题，由于中西方编码方式的不同，单字节编码的方式在多字节编码的中文环境下经常会遇到转码后显示成“?”的问题，并且由于UTF-8，GBK，GB2312的差异也会导致一些莫名其妙的中文乱码出现。计算机环境下对字符串传输或存储需要经过先编码（编成字节流）后解码（转成字符串）的过程，因此，这么多种编码方式的并存，在编码和解码的过程
复制链接

扫一扫

专栏目录

序号	编码方式	编码后的字节码	解码方式	解码后显示
1	UTF-8	-28 -72 -83 42 -26 -105 -69	UTF-8	中*旻
2	UTF-8	-28 -72 -83 42 -26 -105 -69	GBK	涓?*鏃?
3	UTF-8	-28 -72 -83 42 -26 -105 -69	GB2312	涓?*???
4	UTF-8	-28 -72 -83 42 -26 -105 -69	ISO-8859-1	???*???
5	GBK	-42 -48 42 -107 70	UTF-8	??*?F
6	GBK	-42 -48 42 -107 70	GBK	中*旻
7	GBK	-42 -48 42 -107 70	GB2312	中*?F
8	GBK	-42 -48 42 -107 70	ISO-8859-1	??*?F
9	GB2312	-42 -48 42 63	UTF-8	??*?
10	GB2312	-42 -48 42 63	GBK	中*?
11	GB2312	-42 -48 42 63	GB2312	中*?
12	GB2312	-42 -48 42 63	ISO-8859-1	??*?
13	ISO-8859-1	63 42 63	UTF-8	?*?
14	ISO-8859-1	63 42 63	GBK	?*?
15	ISO-8859-1	63 42 63	GB2312	?*?
16	ISO-8859-1	63 42 63	ISO-8859-1	?*?