常见编码格式及字符集主要有如下几种:
ASCII:
表示英语及西欧语言,用7个二进制位表示,能够表示128个字符,扩展表示用8个二进制位,表示256个字符。
GB2312:
国家简体中文字符集,兼容ASCII,使用16个二进制位表示,能够表示7445个汉字,包含6763个汉字,几近覆盖所有高频率汉字,是中国大陆的主要编码方式。当文章或网页包含繁体中文、日文、韩文等时,这些内容可能无法被正确编码和显示。
BIG5:
繁体中文编码方式,使用16个二进制位表示,表示13053个汉字,主要在台湾地区使用。
GBK:
它是GB2312的扩展,加入对繁体字的支持,兼容GB2312,使用16个二进制位表示,可表示21886个字符。虽然GBK支持简体和繁体中文,但对其他非拉丁字母语言的支持还是有问题的。
UNICODE:
世界650种语言的统一编码格式,有三种编码方式,分别为UTF-8、UTF-16、UTF-32,其中,以UTF-8最为通用,俗称“万国码”。UTF-8中字符使用8位序列来编码,用一个或几个字节来表示一个字符,它保留了ASCII码的编码作为它的一部分。
GB18030:
采用变字节编码,1个字节表示ASCII,2字节,4字节,可表示27484个字符,兼容GBK,解决了中文、日文、朝鲜语等的编码。
UCS:
国际标准ISO10646定义的通用字符集,与unicode类似,UCS-2与UNICODE兼容。具有两种格式,UCS-2、UCS-4,分别是2字节和4字节。
ISO-8859-1:
扩展ASCII,表示西欧、希腊语等。使用8位二进制位进行编码。
按所表示的文字分类,可以将字符编码格式分类如下:
语言 | 字符集 | 正式名称 |
英语、西欧语 | ASCII,ISO-8859-1 | MBCS多字节 |
简体中文 | GB2312 | MBCS多字节 |
繁体中文 | BIG5 | MBCS多字节 |
简繁中文 | GBK | MBCS多字节 |
中文、日语、朝鲜语 | GB18030 | MBCS多字节 |
各国语言 | UNICODE,UCS | MBCS多字节 |
注:MBCS,Multi-Byte Character System,多字节字符集,是一种替代Unicode以支持无法用单字节表示的字符集如中文、日文等的方法,为国际市场编码时应考虑使用Unicode或MBCS字符集,或使程序能够通过更改开关生成支持两种字符集之一的程序。最常见的MBCS的实现是双字节字符集DBCS。