ccs 中文乱码_关于字符集和乱码的思考

最新推荐文章于 2024-08-12 08:12:33 发布

weixin_39713833

最新推荐文章于 2024-08-12 08:12:33 发布

阅读量1.9k

点赞数

文章标签： ccs 中文乱码

本文链接：https://blog.csdn.net/weixin_39713833/article/details/111526108

版权

本文深入探讨字符集和乱码问题，从基本概念如ASCII、Unicode到GB2312、GBK、UTF-8等编码规则。作者通过实例分析了乱码产生的原因，包括网页、UNIX/Linux终端显示、数据库等方面，并提供了解决方案。此外，还讨论了Windows剪贴板和输入法在不同编码环境下的工作原理。

摘要由CSDN通过智能技术生成

重要提示：本文并非学术文章，本人也并非语言和文字学领域人士，只是出于好奇心，根据自己的理解写下这篇文章。本文的参考文档都来源于互联网，而且并未一一考证其准确性和权威性，因此本文仅供参考。

字符集和字符编码的问题一直困扰着我，之间曾经多次尝试把这个问题理解清楚，但始终由于有些细节问题无法自圆其说因而放弃。网上的资料多数描述过于简单，又或者作者本人对问题也了解不深入，容易产生误导。最近我终于下定决心将之前对“乱码”问题的思考更进一步，否则将始终是一丝遗憾。这里也不得不感叹，老外的“科普”做的好啊，网上有很多质量相当高的文章，表述严密，引用充分，例证丰富，我相信在国内各领域的专家也不少，计算机和语言学方面都有很多有建树的大牛，也许是太忙吧。对我个人而言，最重要的一片文章是“Character set encoding basics”，在本文最后有链接的地址，本人的翻译版本在这里：http://blog.chinaunix.net/space.php?uid=11187&do=blog&id=3034493

1.字符集的基本概念

什么是字符集？什么是字符编码？

按照“Character set encoding basics”文中的定义，字符集的编码模型分为以下4个层次

1)抽象字符清单Abstract character repertoire (ACR)，无序，无编码；

2)已编码字符集Coded character set (CCS)，有序，有编码；

3)字符编码规则Character encoding form (CEF)，有序，有编码；

4)字符编码方案Character encoding scheme (CES)，有序，有编码，有传输和储存规则(字节序)；

这种分层方式，比较偏于学术化，不太容易理解。按我个人的理解，GB2312/GBK/GB18030/ASCII这些字符集编码规则，由于都基于8-bit字节，是属于前三层的，可以认为是三层合一。如果拿Unicode来说明的话，Unicode中定义的所有字符的集合，是第一层；我们通常说的Unicode编码，是指的第二层；现在最常见的UTF-8，是指的第三层。当UCS-4在以8-bit为基础的计算机中存储和传输时，就要涉及字节序的问题，就是第四层，分为big-endian和little-endian。

借用“程序员趣味读物：谈谈Unicode编码”中举的一个记事本例子(内容不同)：

1)打开记事本(windows自带的那个)，输入“我”；

2)另存为我_ansi.txt，注意，编码选择“ANSI”；

3)另存为我_unicode.txt，注意，编码选择“Unicode”；

4)另存为我_unicode_big.txt，注意，编码选择“Unicode Big Endian”；

5)另存为我_utf8.txt，注意，编码选择“UTF-8”；

保存完以后，看一下4个文件的大小，很有意思吧，分别是2/4/4/6个字节，再用二进制方式(推荐使用ultraedit)查看一下其中的内容：(高位字节在前)

1)ansi:CE D2

2)unicode:FF FE 11 62

3)unicode_big:FE FF 62 11

4)UTF-8:EF BB BF E6 88 91

第一个文件，ansi，比较好解释，2字节，就是GB2312/GBK/GB18030编码，即简体中文windows的默认内码