| |||||||||||
字符 | ASCII代码 | 字符 | ASCII代码 | 字符 | ASCII代码 | ||||||
二进制 | 十进制 | 十六进制 | 二进制 | 十进制 | 十六进制 | 二进制 | 十进制 | 十六进制 | |||
回车 | 0001101 | 13 | 0D | ? | 0111111 | 63 | 3F | a | 1100001 | 97 | 61 |
% | 0100101 | 37 | 25 | F | 1000110 | 70 | 46 | h | 1101000 | 104 | 68 |
, | 0101100 | 44 | 2C | M | 1001101 | 77 | 4D | o | 1101111 | 111 | 6F |
3 | 0110011 | 51 | 33 | T | 1010100 | 84 | 54 | v | 1110110 | 118 | 76 |
9 | 0111001 | 57 | 39 | Z | 1011010 | 90 | 5A | { | 1111011 | 123 | 7B |
ASCII字符表:
(注:要在console窗口打印查看扩展ASCII字符表,请先设置代码页为437.(SetConsoleOutputCP(437)))
咳......说英语的人就是“笨”!后来他们突然发现,如果需要按照表格方式打印这些字符的时候,缺少了“制表符”。于是又扩展了ASCII的定义,使用一个字节的全部8位(bit)来表示字符了,这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。
咳......说中文的人就是聪明!中国人利用连续2个扩展ASCII码的扩展区域(0xA0以后)来表示一个汉字,该方法的标准叫GB-2312。后来,日文、韩文、阿拉伯文、台湾繁体(BIG-5)......都使用类似的方法扩展了本地字符集的定义,现在统一称为 MBCS 字符集(多字节字符集)。这个方法是有缺陷的,因为各个国家地区定义的字符集有交集,因此使用GB-2312的软件,就不能在BIG-5的环境下运行(显示乱码),反之亦然。
咳......说英语的人终于变“聪明”一些了。为了把全世界人民所有的所有的文字符号都统一进行编码,于是制定了UNICODE标准字符集。UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终于好啦,全世界任何一个地区的软件,可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站,显示出我不认识的日文文字,但至少不会是乱码了。UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符,其中光汉字就占用了4万多个。嘿嘿,中国人赚大发了:0)
在程序中使用各种字符集的方法:
const char * p = "Hello"; // 使用 ASCII 字符集 const char * p = "你好"; // 使用 MBCS 字符集,由于 MBCS 完全兼容 ASCII,多数情况下,我们并不严格区分他们 LPCSTR p = "Hello,你好"; // 意义同上 const WCHAR * p = L"Hello,你好"; // 使用 UNICODE 字符集 LPCOLESTR p = L"Hello,你好"; // 意义同上 // 如果预定义了_UNICODE,则表示使用UNICODE字符集;如果定义了_MBCS,则表示使用 MBCS const TCHAR * p = _T("Hello,你好"); LPCTSTR p = _T("Hello,你好"); // 意义同上
在上面的例子中,T是非常有意思的一个符号(TCHAR、LPCTSTR、LPTSTR、_T()、_TEXT()...),它表示使用一种中间类型,既不明确表示使用 MBCS,也不明确表示使用 UNICODE。那到底使用哪种字符集那?嘿嘿......编译的时候决定吧。设置条件编译的方式是:VC6中,"ProjectSettings...C/C++卡片 Preprocessor definitions" 中添加或修改 _MBCS、_UNICODE;VC.NET中,"项目属性配置属性常规字符集"然后用组合窗进行选择。使用 T 类型,是非常好的习惯,严重推荐!