1、字符、字符集、字符编码概念
- 字符(Character)
是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 - 字符集(Character set)
是一个系统支持的所有抽象字符的集合。通常以二维表的形式存在,
二维表的内容和大小是由使用者的语言而定。
如ASCII,GBxxx,Unicode等。 - 字符编码(Character encoding)
是把字符集中的字符编码为特定的二进制数,以便在计算机中存储。每个字符集中的字符都对应一个唯一的二进制编码。
不管在计算的内存中还是硬盘中,都是存储的字符编码,只是在需要显示字符的时候通过解码方式解析出该二进制编码在字符集中的编号(解码过程),然后通过编号在字符集中寻找对应的字符,调用显示器显示该字符
2、字符集和字符编码的关系
字符集和字符编码一般都是成对出现的,
字符集 ASCII 对应字符编码 IOS-8859-1、
中文汉字对应字符编码 GB2312、GBK,
字符集 Unicode 对应字符编码 UTF-8、UTF-16、UTF-32
UTF-8编码表,大小可变的编码,数字1个字节,字母1个字节,汉字3个字节
GBK可以表示汉字,而且范围广,数字1个字节,字母1个字节,汉字2个字节)