C++ Unicode 和 ASCll 字符

       不同的多字节字符集之间存在重码现象,对于同一个编码,在不同的字符集之间可能对应的是不同的字符。也就是说不同的多字节字符是不能共存的。Unicode是统一码,它包容了不同的字符集,每个字符都对应于唯一的编码。

在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。 

后来,由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。

 

Unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。标准的Unicode称为UTF-16,宽字节字符集 。

字符集 实例 

ANSI “string” 

Unicode L“string” 

ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ } 

 

 为什么要使用Unicode? 

(1) 可以很容易地在不同语言之间进行数据交换。 

(2) 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。 

(3) 提高应用程序的运行效率。 

 

.如何编写符合ANSI和Unicode的应用程序? 

(1) 将文本串视为字符数组,而不是chars数组或字节数组。 

(2) 将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。 

(3) 将显式数据类型(如BYTE和PBYTE)用于字节、字节指针和数据缓存。 

(4) 将TEXT宏用于原义字符和字符串。 

(5) 执行全局性替换(例如用PTSTR替换PSTR)。 

(6) 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。

 

如何在Unicode与ANSI之间转换字符串? 

Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串;函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

 

将多字节字符串转为宽字符串:

  1.   char sBuf[25]={0};  
  2.   
  3.     strcpy(sBuf, "我最棒");  
  4.   
  5.     //获取输入缓存大小  
  6.     int sBufSize=strlen(sBuf);  
  7.     //获取输出缓存大小  
  8.     //VC++ 默认使用ANSI,故取第一个参数为CP_ACP  
  9.     DWORD dBufSize=MultiByteToWideChar(CP_ACP, 0, sBuf, sBufSize, NULL, 0);  
  10.     printf("需要wchar_t%u个\n", dBufSize);  
  11.   
  12.     wchar_t * dBuf=new wchar_t[dBufSize];  
  13.     wmemset(dBuf, 0, dBufSize);  
  14.   
  15.     //进行转换  
  16.     int nRet=MultiByteToWideChar(CP_ACP, 0, sBuf, sBufSize, dBuf, dBufSize);  
  17.       
  18.     if(nRet<=0)  
  19.     {  
  20.         cout<<"转换失败"<<endl;  
  21.         DWORD dwErr=GetLastError();  
  22.         switch(dwErr)  
  23.         {  
  24.         case ERROR_INSUFFICIENT_BUFFER:  
  25.             printf("ERROR_INSUFFICIENT_BUFFER\n");  
  26.             break;  
  27.         case ERROR_INVALID_FLAGS:  
  28.             printf("ERROR_INVALID_FLAGS\n");  
  29.             break;  
  30.         case ERROR_INVALID_PARAMETER:  
  31.             printf("ERROR_INVALID_PARAMETER\n");  
  32.             break;  
  33.         case ERROR_NO_UNICODE_TRANSLATION:  
  34.             printf("ERROR_NO_UNICODE_TRANSLATION\n");  
  35.             break;  
  36.         }  
  37.     }  
  38.     else  
  39.     {  
  40.         cout<<"转换成功"<<endl;  
  41.         cout<<dBuf;   
  42.     }  
  43.   
  44.     delete(dBuf);  

 

 

 

  1. //从宽字符串转换窄字符串  
  2. wchar_t sBuf[25]={0};  
  3. wcscpy(sBuf, L"我最棒");  
  4.   
  5. //获取转换所需的目标缓存大小  
  6. DWORD dBufSize=WideCharToMultiByte(CP_OEMCP, 0, sBuf, -1, NULL,0,NULL, FALSE);  
  7.   
  8. //分配目标缓存  
  9. char *dBuf = new char[dBufSize];  
  10. memset(dBuf, 0, dBufSize);  
  11.   
  12. //转换  
  13. int nRet=WideCharToMultiByte(CP_OEMCP, 0, sBuf, -1, dBuf, dBufSize, NULL, FALSE);  
  14.   
  15. if(nRet<=0)  
  16. {  
  17.     printf("转换失败\n");  
  18. }  
  19. else  
  20. {  
  21.     printf("转换成功\nAfter Convert: %s\n", dBuf);  
  22. }  
  23. delete []dBuf;  

 

 

 

http://blog.csdn.net/stephen1315/article/details/7476236

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值