发信人: gege (呖咕呖咕我发财), 信区: C++ 标 题: UNICODE编程 发信站: 飘渺水云间 (Thu Apr 25 21:00:30 2002), 站内信件 这是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。 1.关于UNICODE 首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括 big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页 http://www.unicode.org/unicode/standard/translations/s-chinese.html 2.为什么要使用UNICODE 1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型 2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。 3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。 3.如何使用UNICODE 1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义: #ifdef UNICODE // r_winnt typedef WCHAR TCHAR, *PTCHAR; #else /* UNICODE */ // r_winnt typedef char TCHAR, *PTCHAR; #endif /* !_TCHAR_DEFINED */ 上面的代码来自WINNT.H我剔除了一些无关的部分。现在一切都显而易见了。 通过TCHAR,我们只需要这样一段代码: TCHAR tStr[] = _T("t code"); MessageBox(tStr); 就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。 2)关于其他的处理 首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法: CString *pFileName = new CString("c://tmpfile.txt"); #ifdef _UNICODE m_hFile = CreateFile(pFileName->AllocSysString(), GENERIC_READ | GENERIC_WRITE, FILE_SHARE_READ, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL); #else m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()), GENERIC_READ | GENERIC_WRITE, FILE_SHARE_READ, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL); #endif 3) 当我们在UNICODE方式中需要为一个字串常量附值时可以使用L宏,如: BSTR wcsStr = L"unicode"; 这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你吧它附给一个MULTIBYTE的字串,字符将可能会被截断。 另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。 3.编译器的设置: 首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。 发信人: olddog (汪汪汪), 信区: C++ 标 题: Re: UNICODE编程 发信站: 飘渺水云间 (Thu Apr 25 21:44:26 2002), 转信 补充一些:
字符集有UNICODE,ACSII,MBCS等 UNICDE是ASCII的一个扩展, 用16位字符编码。 MBCS是UNICODE的一个替代物,可以用一个或者两个字节(byte)来表示字符。用两个byt e的时候,头一个byte叫做lead-byte,要表明接下来两个byte代表一个字符。不同范围的 lead-byte表明了不同的字符集合(code page) 好比 n1-n2表明是日文, n3-n4表明 是中文字符。 如果程序考虑到在国际上发布,那么就要用MBCS或者UNICODE,或者使得程序能够以多种模 式编译。 MBCS最普遍的一种情况是DBCS。 使用宽字符的时候需要注意下面几个地方: 1.文件名 2.字符操作(delete,右方向键移动一个character...) 3.string长度 4.程序入口函数 crt和mfc支持single-byte,MBCS,UNICODE 字符串处理函数一般分下面几个版本: str... single-byte _mbs MBCS wcs UNICODE MFC的类成员函数一般用可移植的函数_..... 三种字符间的可移植性 通过TCHAR.H里面的前缀_tcs将三种字符串处理函数统一起来,以及在编译的时候定义不同的宏开关,可以自由选择按照什么方式进行编译。 TCHAR.H里面定义了宏_TCHAR 当按照UNICODE编译的时候,是wchar_t 而按照singlg _code或者MBCS编译的时候则是char 一般来说,我们使用tcs...函数,操作_TCHAR 使用unicode和MCBS的区别; UNICODE 在win_nt, win_2k平台上 不能在95下用 (字符串一定是16位/character) MCBS 任何win32平台 (每个字符可以是1个或者2个字节) |