1、ASCII字符集:包含大小写英文、阿拉伯数字、标点,以及一些不可见的控制符共128个。
ASCII编码:使用7位表示一个字符。编码范围是[0-127](即Hex[00-7F]),其中[0-31](Hex[00-1F])部分以及127(Hex7F)是控制符,其余的都是些可见字符。
2、GB2312字符集:ASCII字符集+7000左右汉字字符。
GB2312编码:兼容ASCII编码。对字节进行判断,如值<=127,则意义等同于ASCII编码;如值>127,则它需要跟其后的另一个字节合并表示一个字符。
3、GBK字符集:GB2312字符集+20000左右汉字字符。
GBK编码:兼容GB2312编码。利用了GB2312编码闲置的编码空间。
4、UNICODE
①UTF-32编码:固定使用4个字节来表示一个字符,存在空间利用效率的问题。
② UTF-16编码:对相对常用的60000余个字符使用两个字节进行编码,其余的(即’补充字符supplementary characters’)使用4字节。
③UTF-8编码:兼容ASCII编码;拉丁文、希腊文等使用两个字节;包括汉字在内的其它常用字符使用三个字节;剩下的极少使用的字符使用四个字节。