Ansi、Unicode与通用类型

最新推荐文章于 2022-12-18 20:06:54 发布

trustnature

最新推荐文章于 2022-12-18 20:06:54 发布

阅读量535

点赞数

分类专栏： C/C++ 文章标签： null integer api windows string 语言

C/C++ 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Ansi、Unicode与通用类型

（http://www.cnblogs.com/qfcndtt/archive/2012/07/06/2579272.html）

①、Ansi与Unicode简要说明及各自的优缺点：
他们是两种字符的编码格式，Ansi=窄字节，Unicode=宽字节，Ansi用char格式表示一个字符，占用一个字节的存储空间，最多表示255个字符，
表示英文还可以，但对于中文、日文、韩文等语言来说就不够用了，所以如果你的程序是Ansi编码的话，
那么你写的中文语言的程序拿到日文、韩文等系统上面就会出现乱码。所以有了Unicode，用二个字节去表示一个字符，格式是 unsigned short，被定义成 wchar_t 格式
这样就可以表示世界上绝大多数的语言了！但有利就有弊，缺点呢？就是空间占用翻倍了，网络传输的数据量也增大了……

◆ vc++ 6.0 默认为Ansi编码，vs2005、vs2008、vs2010 等默认都是Unicode编码，当然可以进行工程的设置从而进行编码的转换，见演示！

◆ 就我个人观点：还是建议大家使用Unicode宽字节的编码格式，具体见下面：

◆ 系统提供了两种类型的 API 函数，见：user32.dll 中的 MessageBox 函数，其实 MessageBox 他只是一个宏，他对应的两个版本的函数分别为：MessageBoxA 和 MessageBoxW，你在使用的时候系统会根据是否定义了_UNICODE 宏来进行判断该使用哪个版本的函数！如果你的工程没有定义_UNICODE 宏，那么就使用窄字节的 MessageBoxA，如果定义了，那么就使用宽字节的 MessageBoxW，具体在vs2008中，右键找定义，见演示！

◆ 网摘：Windows 2000 及其以后的 Xp、2003、Vista、Win7 等系统都是使用Unicode从头进行开发的，如果调用任何一个Windows API 函数并给它传递一个 ANSI 字符串，那么系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串，系统就会先将Unicode字符串转换成ANSI字符串，然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序，就能够使你的应用程序更加高效的运行！

②、不同编码格式下的字符串处理及相互转化：

◆ 大家在编程时经常遇到的数据类型：
● Ansi：
char、char * 、const char *
CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR

● Unicode：
wchar_t、wchar_t * 、const wchar_t *
WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

● T 通用类型：
TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

以上，其中：P代表指针的意思，STR代表字符串的意思，L是长指针的意思，在WIN32平台下可以忽略，C代表const常量的意思，W代表wide宽字节的意思，T大家可以理解为通用类型的意思，就是可以根据工程中是否定义_UNICODE 宏，分别定义成不同的类型，比如：TCHAR 类型，如果工程中定义了_UNICODE 宏，那么他最终被定义成 wchar_t 类型，如果工程中没有定义_UNICODE 宏，那么 TCHAR 被最终定义成 char 类型。

〓※※※〓其方便性就是修改了工程的编码格式之后不用修改代码，所以还是建议大家在编写程序的时候使用通用类型！

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

◆ 字符串类型的对象的定义：
● Ansi：char *pAnsiStr = "hello";
● Unicode：wchar_t *pUnicodeStr = L"hello";
● 通用类型：TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");
● 动态申请内存：TCHAR *pszBuf = new TCHAR[100];

其中，_TEXT 和 _T 是一样的，定义如下：
#define _T(x) __T(x)
#define _TEXT(x) __T(x)

来看看 __T 的最终定义：
#ifdef _UNICODE
#define __T(x) L##x
#else
#define __T(x) x
#endif

其中，##为连接起来的意思。

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

◆ 常用的字符串处理函数，具体信息见MSDN：
字符串长度：
● Ansi：strlen(char *str);
● Unicode：wcslen(wchar_t *str);
● 通用函数：_tcslen(TCHAR *str);

● Ansi：int atoi(const char *str);
● Unicode：int _wtoi(const wchar_t *str);
● 通用函数：_tstoi(const TCHAR *str);

字符串拷贝：
● Ansi：strcpy(char *strDestination, const char *strSource);
● Unicode：wcscpy(wchar_t *strDestination, const wchar_t *strSource);
● 通用函数：_tcscpy(TCHAR *strDestination, const TCHAR *strSource);

以上函数不安全，在vs2003等以上版本的编译器中会有warnning警告提示，以下为安全函数（vc++6.0不支持）：
● Ansi：strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);
● Unicode：wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);
● 通用函数：_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);

numberOfElements
Size of the destination string buffer. 目的缓冲区的大小，以字节为单位，不是字符！

size_t unsigned integer，在MSDN中的解释：Result of sizeof operator，也就是说 size_t 是 unsigned integer 即无符号整数。那为什么会有size_t这个类型呢？
因为不同平台的操作系统(32/64)中 int/long 等类型所占的字节并不一样，而 size_t 在不同的平台下有不同的定义。有点类似于TCHAR类型：
#ifndef   _SIZE_T_DEFINED
#ifdef     _WIN64
typedef   unsigned   __int64         size_t;   //8个字节，64位
#else
typedef   _W64   unsigned   int       size_t;   //4个字节，32位
#endif
#define   _SIZE_T_DEFINED
#endif

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

③Ansi 与 Unicode 字符串类型的互相转换：

上面给大家介绍的都是窄字节就是窄字节，宽字节就是宽字节，那么下面就给大家介绍下他们两个之间的转换。
在程序中还是不建议大家来回来去的进行字符串编码的转换，要么就都使用Ansi，要么就都使用Unicode，
但是呢，往往有些 API 函数只提供了窄字节版本（比如：GetProcAddress，见MSDN）或者只提供宽字节版本（比如：CommandLineToArgvW，见MSDN），
这个时候就要进行字符串编码格式的转换了。

但是，这里提醒下大家，不是所有的都需要转换，有一些是不需要转换的，比如 socket 中的 send 或者 recv 函数，大家要明白函数参数的真正意义！
=================================================
◆ 字符串占用字节数：
● Ansi：
char szStr[] = "abc";
占用字节数求法：sizeof(szStr);

char *psz = "defgh";
占用字节数求法：strlen(psz)*sizeof(char);

● Unicode：
wchar_t szwStr[] = L"abc";
占用字节数求法：sizeof(szwStr);

wchar_t *pwsz = L"defgh";
占用字节数求法：wcslen(pwsz)*sizeof(wchar_t);

● 通用函数：
TCHAR szStr[] = _T("abc");
占用字节数求法：sizeof(szStr);

TCHAR *psz = _T("defgh");
占用字节数求法：_tcslen(psz)*sizeof(TCHAR);
=======================================================

● 转换用到的最根本的 API 函数：
WideCharToMultiByte 实现宽字节转换到窄字节
MultiByteToWideChar 实现窄字节转换到宽字节

WideCharToMultiByte 的代码页用来标记与新转换的字符串相关的代码页；
MultiByteToWideChar 的代码页用来标记与一个多字节字符串相关的代码页，

[1]、常用的代码页有 CP_ACP 和 CP_UTF8 两个：
使用 CP_ACP 代码页就实现了 ANSI 与 Unicode 之间的转换；--- 我们所用的！
使用 CP_UTF8 代码页就实现了 UTF-8 与 Unicode 之间的转换。

[2]、dwFlags 参数允许我们进行额外的控制，但是，一般情况下都不使用这个标志，直接传递 0 就行了。

[3]、lpDefaultChar和pfUsedDefaultChar：只有当WideCharToMultiByte函数遇到一个宽字节字符，而该字符在uCodePage参数标识的代码页中并没有它的表示法时，WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换，该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL（这是大多数情况下的参数值），那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的，因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量，如果Unicode字符串中至少有一个字符不能转换成等价多字节字符，那么函数就将该变量置为TRUE。如果所有字符均被成功地转换，那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后，可以测试该变量。

● 两个转换函数的使用举例：
char *cctryWideCharToAnsi(wchar_t *pWideChar)
{
if (!pWideChar) return NULL;
char *pszBuf = NULL;
int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL);
if (needBytes > 0){
  pszBuf = new char[needBytes+1];
  ZeroMemory(pszBuf, (needBytes+1)*sizeof(char));
  WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL);
}

return pszBuf;
}

wchar_t *cctryAnsiCharToWide(char *pChar)
{
if (!pChar) return NULL;
wchar_t *pszBuf = NULL;
int needWChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0);
if (needWChar > 0){
  pszBuf = new wchar_t[needWChar+1];
  ZeroMemory(pszBuf, (needWChar+1)*sizeof(wchar_t));
  MultiByteToWideChar(CP_ACP, 0, pChar, -1, pszBuf, needWChar);
}

return pszBuf;
}

〓※※※〓使用过后千万别忘记释放空间……

● A2W、W2A、T2A、T2W 宏的使用以及注意事项：
[1]、使用 alloca() 函数进行空间的申请，宏返回的地址空间是从栈上面申请的，那么以后就不必释放，这样就涉及到了一个作用域的问题，具体见MSDN，
大家可以简单的理解为“向下兼容”，给大家解释解释！
[2]、不要在一个函数的循环体中使用 A2W 等字符转换宏，可能引起栈溢出。
具体课参照这篇帖子：http://www.cctry.com/thread-17948-1-1.html
比如：
#include <atlconv.h>
void func()
{
    while(true)
    {
        {
            USES_CONVERSION;
            testFunc(A2W("abc"));
        }
    }
}

解决办法：

1、自己写字符转换函数，不要偷懒
Function that safely converts a 'WCHAR' String to 'LPSTR':
char* ConvertLPWSTRToLPSTR (LPWSTR lpwszStrIn)
{
LPSTR pszOut = NULL;
if (lpwszStrIn != NULL)
{
int nInputStrLen = wcslen (lpwszStrIn);

// Double NULL Termination
int nOutputStrLen = WideCharToMultiByte (CP_ACP, 0, lpwszStrIn, nInputStrLen, NULL, 0, 0, 0) + 2;
pszOut = new char [nOutputStrLen];

if (pszOut)
{
memset (pszOut, 0x00, nOutputStrLen);
WideCharToMultiByte(CP_ACP, 0, lpwszStrIn, nInputStrLen, pszOut, nOutputStrLen, 0, 0);
}
}
return pszOut;
}
等等一个一个的实现。

2、把字符转换部分放到一个函数中处理：

void fn2()
{
USES_CONVERSION;
DoSomething(A2W("SomeString"));
}

void fn()
{
    while(true)
    {
        fn2();
    }
}