UNICODE和ANSI以及MBCS的问题

最新推荐文章于 2020-05-23 16:05:01 发布

ucnioa

最新推荐文章于 2020-05-23 16:05:01 发布

阅读量608

点赞数

UNICODE

　　计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，范围是0x00 - 0x7F 共128个字符。他们以为这128个数字就足够表示abcd....ABCD....1234 这些字符了。
咳......说英语的人就是“笨”！后来他们突然发现，如果需要按照表格方式打印这些字符的时候，缺少了“制表符”。于是又扩展了ASCII的定义，使用一个字节的全部8位(bit)来表示字符了，这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。
咳......说中文的人就是聪明！中国人利用连续2个扩展ASCII码的扩展区域（0xA0以后）来表示一个汉字，该方法的标准叫GB-2312。后来，日文、韩文、阿拉伯文、台湾繁体（BIG-5）......都使用类似的方法扩展了本地字符集的定义，现在统一称为 MBCS 字符集（多字节字符集。既：有2 个字节的字符，也有1个字节的字符）。这个方法是有缺陷的，因为各个国家地区定义的字符集有交集，因此使用GB-2312的软件，就不能在BIG-5的环境下运行（显示乱码，因为：阿拉伯人在机器上编写的阿拉伯文字，经过机器的字符编码，变成了一个特定的0x XXXX，而这个特定的0x XXXX字符到中国人的机器上却不存在相对应的汉字，或者是相对应出的汉字根本就与原来阿拉伯文字文章一点关系没有的，所以出现乱码），反之亦然。
咳......说英语的人终于变“聪明”一些了。为了把全世界人民所有的所有的文字符号都统一进行编码，于是制定了UNICODE标准字符集。UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终于好啦，全世界任何一个地区的软件，可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站，显示出我不认识的日文文字，但至少不会是乱码了。UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符，其中光汉字就占用了4 万多个。嘿嘿，中国人赚大了。

在程序中使用各种字符集的方法：
const char * p = "Hello"; // 使用 ASCII 字符集
const char * p = "你好"; // 使用 MBCS 字符集，由于 MBCS 完全兼容 ASCII，多数情况下，我们并不严格区分他们
LPCSTR p = "Hello,你好"; // 意义同上

const WCHAR * p = L"Hello,你好"; // 使用 UNICODE 字符集
LPCOLESTR p = L"Hello,你好"; // 意义同上

// 如果预定义了_UNICODE，则表示使用UNICODE字符集；如果定义了_MBCS,则表示使用 MBCS
const TCHAR * p = _T("Hello,你好");
LPCTSTR p = _T("Hello,你好"); // 意义同上
　　

在上面的例子中，T是非常有意思的一个符号（TCHAR、LPCTSTR、LPTSTR、_T()、TEXT()、_TEXT()...），它表示使用一种中间类型，既不明确表示使用 MBCS，也不明确表示使用 UNICODE。那到底使用哪种字符集那？嘿嘿......编译的时候决定吧。设置条件编译的方式是：VC6中，"Project\Settings...\C/C++卡片 Preprocessor definitions" 中添加或修改 _MBCS、_UNICODE；VC.NET中，"项目\属性\配置属性\常规\字符集"然后用组合窗进行选择。使用 T 类型，是非常好的习惯，严重推荐！

举个例子：
"abc"是非Unicode string,
L"abc"是Unicode tring. L用来定义UNICODE字符串，L就是转换成宽字符
其次：.NET 的平台CLR (Common Language RunTime库中用定义(#define) _UNICODE 来表示使用Unicode；
在 Win32 API 中是用定义(#define) UNICODE 来表示使用 Unicode 。
而大多数应用程序(Application)都是既使用CLR又使用Win32 API的，所以一般地，_UNICODE和UNICODE 应该在工程中同时定义或同时不定义。
_T("abc") 在_UNICODE已定义时解释成L"abc",是Unicode string；
在_UNICODE 未定义时则解释成"abc",非Unicode string。
TEXT("abc")类似，不过它是根据UNICODE 的定义与否来决定的。

再说以下：
如果有下面三句话：
TCHAR szStr1[] = TEXT("str1");
char szStr2[] = "str2";
WCHAR szStr3[] = L("str3");
那么第一句话在定义了UNICODE时会解释为第三句话，没有定义时就等于第二句话。
第二句话无论是否定义了UNICODE都是生成一个ANSI字符串，而第三句话总是生成UNICODE字符串。
为了程序的可移植性，建议都用第一中表示方法。

MultiByteToWideChar函数与 _T、TEXT() 这两个宏都可以选择 ASNI (MBCS) 还是 UNICODE 字符
第一个函数转换的对象可以是常量、变量；第二、三只能转换常量。
补充：
LPSTR == char*
LPCSTR == const char* LPCTSTR == const char* // Not defined _UNICODE, such as win9x
LPCTSTR == const wchar_t* // defined _UNICODE, such as win2k LPWSTR == wchar_t*
即：
LPCSTR A 32-bit pointer to a constant character string.
LPSTR A 32-bit pointer to a character string.

LPCTSTR A 32-bit pointer to a constant character string that is portable for Unicode and DBCS. LPTSTR A 32-bit pointer to a character string that is portable for Unicode and DBCS.

另外，如果嫌类型转换实在太麻烦的话，就把字符集设成“未设置”，修改之后通常需要清理解决方案，再重新生成，
否则会出现错误：general error c101008a: Failed to save the updated manifest to the file ".\Debug\Test1.exe.embed.manifest". The parameter is incorrect. mt.exe

以上转自：http://hi.baidu.com/windtrace/item/097a52fba9491119e3e3bd4c

VC6这样的早期版本默认是用MBCS（多字节字符集）

下面用代码验证：

#include <IOSTREAM>
#include "TCHAR.H"
char *parr=new char[10];
char pa[10]={0};
TCHAR p[] = _T("ucnioa的博客!");

int main()
{
	std::cout<<strlen(parr)<<std::endl;
	std::cout<<sizeof p<<std::endl;
	std::cout<<sizeof pa<<std::endl;
	return 0;
}

上述代码在VC6.0下运行的结果是：

将VS2010设置为“使用 Unicode 字符集”，运行上述代码结果如下：

由结果可得，对字符串p来说，使用多字节字符集时，占14字节（汉字占两个字节，字母占一个字节）；而使用 Unicode 字符集时，占22字节（汉字和字母均占两个字节）。

ucnioa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
UNICODE和ANSI以及MBCS的问题

UNICODE 　　计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，范围是0x00 - 0x7F 共128个字符。他们以为这128个数字就足够表示abcd....ABCD....1234 这些字符了。咳......说英语的人就是“笨”！后来他们突然发现，如果需要按照表格方式打印这些字符的时候，缺少了“制表符”。于是
复制链接

扫一扫