1. ASCII码
ASCII码是用一字节(Byte),即8个二进制数(8Bit)来表示的字符编码。ASCII是20世纪60年代由美国制定的字符编码,包括英文大小写字母、数字及打印控制符号共128个字符(ASCII首位规定为0,只使用后面的7位二进制即128个字符)。
2.Unicode编码
ASCII码只包括了英文字符,但对于其它语言确有各自的编码规范且不互相通用。 比如:简体汉字使用的是GB2312编码,繁体汉字使用的BIG5编码。由于没有统一的规范,用BIG5编码写的软件在使用其它编码(GB2312)的平台上运行时,文字不能正常显示,用户看到的就是乱码。
Unicode是提出一种统一的编码规范用来解决这样的问题。
3. UTF-8、UTF-16、UTF-32
在Unicode中,有很多种实现方式。包括:UTF-8、UTF-16、UTF-32。
标准的Unicode编码采用的是UTF-16编码。
UTF是“UCS Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。
例如,“汉字”对应的数字是0x6c49和0x5b57,而编码的程序数据是:
BYTEdata_utf8[] = {0xE6,0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8编码
WORDdata_utf16[] = {0x6c49,0x5b57}; // UTF-16编码
DWORDdata_utf32[] ={0x6c49, 0x5b57}; // UTF-32编码
这里用BYTE、WORD、DWORD分别表示无符号8位整数,无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个WORD,大小是4个字节。“汉字”的UTF-32编码需要两个DWORD,大小是8个字节。
4. 编程语言中的编码
对于JAVA/.NET等这些“新”的语言来说,内置的字符串所使用的字符集已经完全是UNICODE。
在vc 2010中开发应用程序可以选择三种编码方式: No set,Multi-Byte Character Set和Unicode Character Set。
1) No set:默认采用ASCII编码
2) multi-byte character set(MBCS):多字节字符集,字符的大小是可变的;一个MBCS编码包含一些一个字节长的字符,而另一些字符大于一个字节的长度。
3) Unicode:一种所有的字符都使用两个字节编码的编码模式。
更多内容请参考原文: http://blog.163.com/dujinhui1988@126/blog/static/14028002720114141012541/