今天终于搞清楚了各种编码的关系,以后不要再纠结这些东西了。
ANSI: Americal National Standard Institute,泛指这种编码方式:
char 型 0-255,Ascii 码 0-127,
在ANSI编码中,ASCLL码还是一个字节,用两个字节表示非ASCLL 码,如中文,韩文等,特点是首字节是 128-255。 如‘啊’在GB2312-80中表示为 176,161.
GB2312-80: 首字节 128-255,第二字节 128- 255
GBK: 首字节 128-255,第二字节 64-255
GB18030: 两个或四个字节 首字节 128-255 ,第二,四字节反正可以区分开
Unicode: 一种编码方式。包含了全世界所有的字符。
Ucs: universal character set, 分为UCS-2和UCS-4.分别表示 16位和 32 位。基本跟unicode 没有分别,只是属于两个不同的机构推出来的。
UTF8:unicode translation format ,只是unicode 码的一种实现方式,为了避免浪费空间。
具体来说,vc用的还是GB
java,python 都支持unicode,不是utf-8
通常所说的编码 uincode和utf-8,其中unicode 是指两个字节的定长编码(官方的),utf-8是变长编码。