重要提示:本文并非学术文章,本人也并非语言和文字学领域人士,只是出于好奇心,根据自己的理解写下这篇文章。本文的参考文档都来源于互联网,而且并未一一考证其准确性和权威性,因此本文仅供参考。
字符集和字符编码的问题一直困扰着我,之间曾经多次尝试把这个问题理解清楚,但始终由于有些细节问题无法自圆其说因而放弃。网上的资料多数描述过于简单,又或者作者本人对问题也了解不深入,容易产生误导。最近我终于下定决心将之前对“乱码”问题的思考更进一步,否则将始终是一丝遗憾。这里也不得不感叹,老外的“科普”做的好啊,网上有很多质量相当高的文章,表述严密,引用充分,例证丰富,我相信在国内各领域的专家也不少,计算机和语言学方面都有很多有建树的大牛,也许是太忙吧。对我个人而言,最重要的一片文章是“Character set encoding basics”,在本文最后有链接的地址,本人的翻译版本在这里:http://blog.chinaunix.net/space.php?uid=11187&do=blog&id=3034493
1.字符集的基本概念
什么是字符集?什么是字符编码?
按照“Character set encoding basics”文中的定义,字符集的编码模型分为以下4个层次
1)抽象字符清单Abstract character repertoire (ACR),无序,无编码;
2)已编码字符集Coded character set (CCS),有序,有编码;
3)字符编码规则Character encoding form (CEF),有序,有编码;
4)字符编码方案Character encoding scheme (CES),有序,有编码,有传输和储存规则(字节序);
这种分层方式,比较偏于学术化,不太容易理解。按我个人的理解,GB2312/GBK/GB18030/ASCII这些字符集编码规则,由于都基于8-bit字节,是属于前三层的,可以认为是三层合一。如果拿Unicode来说明的话,Unicode中定义的所有字符的集合,是第一层;我们通常说的Unicode编码,是指的第二层;现在最常见的UTF-8,是指的第三层。当UCS-4在以8-bit为基础的计算机中存储和传输时,就要涉及字节序的问题,就是第四层,分为big-endian和little-endian。
借用“程序员趣味读物:谈谈Unicode编码”中举的一个记事本例子(内容不同):
1)打开记事本(windows自带的那个),输入“我”;
2)另存为我_ansi.txt,注意,编码选择“ANSI”;
3)另存为我_unicode.txt,注意,编码选择“Unicode”;
4)另存为我_unicode_big.txt,注意,编码选择“Unicode Big Endian”;
5)另存为我_utf8.txt,注意,编码选择“UTF-8”;
保存完以后,看一下4个文件的大小,很有意思吧,分别是2/4/4/6个字节,再用二进制方式(推荐使用ultraedit)查看一下其中的内容:(高位字节在前)
1)ansi:CE D2
2)unicode:FF FE 11 62
3)unicode_big:FE FF 62 11
4)UTF-8:EF BB BF E6 88 91
第一个文件,ansi,比较好解释,2字节,就是GB2312/GBK/GB18030编码,即简体中文windows的默认内码
第二个文件,unicode,就是Unicode编