关于字符编码的几个注意
参考:
Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。
UCS只是规定如何编码,并没有规定如何传输、保存这个编码。
UCS可以看作是"Unicode Character Set"的缩写。
UTF是“UCS Transformation Format”的缩写, 是对UCS的编码方式。
UTF-8的一个特别的好处是它与ISO-8859-1完全兼容
从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。
而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。
Windows使用代码页(code page)来适应各个国家和地区。code page可以被理解为内码。GBK对应的code page是CP936。
UCS-2 UCS-4 两种unicode编码方式,不同的地方在于4byte和还是2byte编码,再深入的话是对BMP的定义上。