收藏：UNICODE编程

最新推荐文章于 2024-04-24 17:32:35 发布

sunspoter

最新推荐文章于 2024-04-24 17:32:35 发布

阅读量1.2k

点赞数

分类专栏： c++ 文章标签：编程 preprocessor mfc null file byte

本文链接：https://blog.csdn.net/sunspoter/article/details/545559

版权

c++ 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

UNICODE编程 [ Date: 2005-8-14 16:57:00 | 作者: 四年缘尽 ]

发信人: gege (呖咕呖咕我发财), 信区: C++
标题: UNICODE编程
发信站: 飘渺水云间 (Thu Apr 25 21:00:30 2002), 站内信件

这是一个许多人（包括我自己）曾经或至今仍疑惑的问题（这里我们只讨论UTF-16，即双字节版本）。
1.关于UNICODE
　　首先，UNICODE主要使用的字符类型是WCHAR，定义是unsigned short。从定义我们可以看出这是一个双字节的类型，就是每一个字符占2个字节。这样的话，可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间，而汉字（包括
big5）分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节，可以参看以下网页
http://www.unicode.org/unicode/standard/translations/s-chinese.html
2.为什么要使用UNICODE
　　1) COM：在COM规范中，明确指定了必须使用UNICODE类型，这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR（WCHAR*）类型
　　2）WIN2000和WINNT：在这两个平台中，默认的字符处理方式是UNICODE。即使你写了一个非UNICODE（multibyte)的程序，系统在执行的时候仍然会对你的字符进行一次转换，这样无疑浪费了CPU时间，使用UNICODE可以有效的提高程序的运行效率（仅使用于这两个平台）。当然将来的XP也会如此。
　　3）通用性：使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼（都是2个字节）。
3.如何使用UNICODE
　　1）首先推荐的类型是TCHAR（通用字符类型）。当你定义了_UNICODE宏的时候，TCHAR就是WCHAR，当你没有定义这个宏的时候，TCHAR就是char，很不可思议吧，我们可以来看一下TCHAR的定义：
#ifdef UNICODE // r_winnt
typedef WCHAR TCHAR, *PTCHAR;
#else /* UNICODE */ // r_winnt
typedef char TCHAR, *PTCHAR;
#endif /* !_TCHAR_DEFINED */
上面的代码来自WINNT.H我剔除了一些无关的部分。现在一切都显而易见了。
通过TCHAR，我们只需要这样一段代码：
TCHAR tStr[] = _T("t code");
MessageBox(tStr);
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
2）关于其他的处理
首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法：
CString *pFileName = new CString("c://tmpfile.txt");
#ifdef _UNICODE
m_hFile = CreateFile(pFileName->AllocSysString(),
GENERIC_READ | GENERIC_WRITE,
FILE_SHARE_READ,
NULL,
OPEN_EXISTING,
FILE_ATTRIBUTE_NORMAL,
NULL);
#else
m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()),
GENERIC_READ | GENERIC_WRITE,
FILE_SHARE_READ,
NULL,
OPEN_EXISTING,
FILE_ATTRIBUTE_NORMAL,
NULL);
#endif
3）当我们在UNICODE方式中需要为一个字串常量附值时可以使用L宏，如：
BSTR wcsStr = L"unicode";
　　这样的附值很简便，但是，经过L宏处理后的字串一定是UNICODE，如果你吧它附给一个MULTIBYTE的字串，字符将可能会被截断。
　　另外，VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。
3.编译器的设置：
　　首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE，然后在link属性页中Category中选择output，在Entry-Point symbol 中添加wWinMainCRTStartup，这样，我们的UNICODE工程便大功告成。

发信人: olddog (汪汪汪), 信区: C++
标题: Re: UNICODE编程
发信站: 飘渺水云间 (Thu Apr 25 21:44:26 2002), 转信

补充一些：

字符集有UNICODE,ACSII,MBCS等

UNICDE是ASCII的一个扩展，用16位字符编码。
MBCS是UNICODE的一个替代物，可以用一个或者两个字节（byte）来表示字符。用两个byt
e的时候，头一个byte叫做lead-byte，要表明接下来两个byte代表一个字符。不同范围的
lead-byte表明了不同的字符集合(code page) 好比 n1-n2表明是日文， n3-n4表明
是中文字符。
如果程序考虑到在国际上发布，那么就要用MBCS或者UNICODE，或者使得程序能够以多种模
式编译。
MBCS最普遍的一种情况是DBCS。

使用宽字符的时候需要注意下面几个地方：
1.文件名    2.字符操作（delete,右方向键移动一个character...）    3.string长度
4.程序入口函数
crt和mfc支持single-byte,MBCS,UNICODE
字符串处理函数一般分下面几个版本：
str...      single-byte
_mbs       MBCS
wcs        UNICODE
MFC的类成员函数一般用可移植的函数_.....

三种字符间的可移植性
通过TCHAR.H里面的前缀_tcs将三种字符串处理函数统一起来，以及在编译的时候定义不同的宏开关，可以自由选择按照什么方式进行编译。
TCHAR.H里面定义了宏_TCHAR 当按照UNICODE编译的时候，是wchar_t 而按照singlg
_code或者MBCS编译的时候则是char

一般来说，我们使用tcs...函数，操作_TCHAR

使用unicode和MCBS的区别；
UNICODE 在win_nt, win_2k平台上不能在95下用（字符串一定是16位/character）
MCBS 任何win32平台 (每个字符可以是1个或者2个字节)

sunspoter

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
收藏：UNICODE编程

UNICODE编程 [ Date: 2005-8-14 16:57:00 | 作者: 四年缘尽 ] 发信人: gege (呖咕呖咕我发财), 信区: C++标题: UNICODE编程发信站: 飘渺水云间 (Thu Apr 25 21:00:30 2002), 站内信件这是一个许多人（包括我自己）曾经或至今仍疑惑的问题（这里我们只讨论UTF-16，即双字节版本）。1.关于UNICODE　　
复制链接

扫一扫