字符编码时间轴
- SBCS(1963)
- DBCS(1980):
- MBCS(1990):
字符编码详解
SBCS
Single-Bytes Character Set,单字节字符集
- ANSI (1963)
- EBCDIC (1964)
DBCS
Double Byte Charecter Set 双字节字符集
-
GB2312(信息交换用汉字编码字符集——基本集 1980):
包含一级汉字3755个,二级汉字3008个 -
Big5:
台湾同胞发明,其中繁体汉字13053个,808个标点符号、希腊字母及特殊符号。 为了解决GB2312不支持繁体的问题 -
GBK (Chinese Internal Code Specification )
收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库 -
GB18030
包含了 GBK + 3000少数民族字
MBCS
Muilti-Bytes Character Set,多字节字符集
- Unicode (1990)
容纳100多万个符号。采用统一的 四字节, UCS-2, UCS-4 - UTF - 8 / 16 / 32 (1992)
为了解决 Unicode 消耗内存的问题, 出现的一种新的编码, 采用 一到四字节 可变长编码风格,
根据特定编码算法可以将 UTF 转换为 Unicode.
用通信理论的思路可以理解为: unicode是信源编码,对字符集数字化; utf8是信道编码,为更好的存储和传输
。