字符集和字符编码是两个不同的概念。
字符集顾名思义是“许多字符的集合”,字符编码是对这些集合的编码方式。比如’a’在ASCII码中的编码是0110 0001。
1、ASCII码(即是字符集也是编码)
英语字符——二级制位
字符集是:英语字符
编码:7位二进制
2、扩展ASCII码(即是字符集也是编码)
其他字符——二级制位
字符集:英语字符+其他字符
编码:8位二进制
3、ANSI编码(即是字符集也是编码)
GB2312、BIG5、JIS
4、Unicode(字符集)
将世界上绝大多数国家的文字、符号都编入其字符集,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
注意其字节序
5、UTF(编码方式)----是对Unicode的编码方式
UTF-16:16位表示一个字符
UTF-32:32位表示一个字符
UTF-8:使用可变长度字节储存Unicode。例如 ASCII 字母继续使用 1 字节储存,重音文字、希腊字母或西里尔字母等使用 2 字节来储存,而常用的汉字就要使用 3 字节。辅助平面字符则使用 4 字节。UTF-8 更便于在使用 Unicode 的系统与现存的单字节的系统进行数据传输和交换。
与前两个方案不同:UTF-8 以字节为编码单元,没有字节序的问题。