C++ Unicode 和 ASCll 字符

最新推荐文章于 2023-11-17 15:58:00 发布

Nobody-H

最新推荐文章于 2023-11-17 15:58:00 发布

阅读量461

点赞数

分类专栏： C++

本文链接：https://blog.csdn.net/wangzhanko/article/details/102868177

版权

C++ 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

不同的多字节字符集之间存在重码现象，对于同一个编码，在不同的字符集之间可能对应的是不同的字符。也就是说不同的多字节字符是不能共存的。Unicode是统一码，它包容了不同的字符集，每个字符都对应于唯一的编码。

在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。

后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，因此，为了能够表示其它国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与Leading Byte一起作为实际的编码。

Unicode字符集，它固定使用16 bits（两个字节、一个字）来表示一个字符，共可以表示65536个字符。标准的Unicode称为UTF-16，宽字节字符集。

字符集实例

ANSI “string”

Unicode L“string”

ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }

为什么要使用Unicode？

（1）可以很容易地在不同语言之间进行数据交换。

（2）使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。

（3）提高应用程序的运行效率。

.如何编写符合ANSI和Unicode的应用程序？

（1）将文本串视为字符数组，而不是chars数组或字节数组。

（2）将通用数据类型（如TCHAR和PTSTR）用于文本字符和字符串。

（3）将显式数据类型（如BYTE和PBYTE）用于字节、字节指针和数据缓存。

（4）将TEXT宏用于原义字符和字符串。

（5）执行全局性替换（例如用PTSTR替换PSTR）。

（6）修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小，而不是字节。

如何在Unicode与ANSI之间转换字符串？

Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串；函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

将多字节字符串转为宽字符串：

char sBuf[25]={0};
strcpy(sBuf, "我最棒");
//获取输入缓存大小
int sBufSize=strlen(sBuf);
//获取输出缓存大小
//VC++ 默认使用ANSI，故取第一个参数为CP_ACP
DWORD dBufSize=MultiByteToWideChar(CP_ACP, 0, sBuf, sBufSize, NULL, 0);
printf("需要wchar_t%u个\n", dBufSize);
wchar_t * dBuf=new wchar_t[dBufSize];
wmemset(dBuf, 0, dBufSize);
//进行转换
int nRet=MultiByteToWideChar(CP_ACP, 0, sBuf, sBufSize, dBuf, dBufSize);
if(nRet<=0)
{
cout<<"转换失败"<<endl;
DWORD dwErr=GetLastError();
switch(dwErr)
{
case ERROR_INSUFFICIENT_BUFFER:
printf("ERROR_INSUFFICIENT_BUFFER\n");
break;
case ERROR_INVALID_FLAGS:
printf("ERROR_INVALID_FLAGS\n");
break;
case ERROR_INVALID_PARAMETER:
printf("ERROR_INVALID_PARAMETER\n");
break;
case ERROR_NO_UNICODE_TRANSLATION:
printf("ERROR_NO_UNICODE_TRANSLATION\n");
break;
}
}
else
{
cout<<"转换成功"<<endl;
cout<<dBuf;
}
delete(dBuf);

//从宽字符串转换窄字符串
wchar_t sBuf[25]={0};
wcscpy(sBuf, L"我最棒");
//获取转换所需的目标缓存大小
DWORD dBufSize=WideCharToMultiByte(CP_OEMCP, 0, sBuf, -1, NULL,0,NULL, FALSE);
//分配目标缓存
char *dBuf = new char[dBufSize];
memset(dBuf, 0, dBufSize);
//转换
int nRet=WideCharToMultiByte(CP_OEMCP, 0, sBuf, -1, dBuf, dBufSize, NULL, FALSE);
if(nRet<=0)
{
printf("转换失败\n");
}
else
{
printf("转换成功\nAfter Convert: %s\n", dBuf);
}
delete []dBuf;