中文编码的转换

最新推荐文章于 2023-08-13 13:25:10 发布

hbu_dcf

最新推荐文章于 2023-08-13 13:25:10 发布

阅读量1k

点赞数

分类专栏：编码文章标签： null delete string windows api 语言

编码专栏收录该内容

9 篇文章 0 订阅

订阅专栏

字符编码的使用

字符编码主要分两种：MBCS以及 Unicode。以 C/CC++ 为例，以 char 为单位的数组使用MBCS编码（如 ASCII，GB2312，BIG5），以wchar_t 为单位的数组使用Unicode作为编码。

比如你的程序中使用：
char szTitle[] = "窗体标题“;
此时，szTitle字符串使用的的是MBCS编码，如果用户的操作系统不是中文的Windows，你的程序将无法正常显示！

所以，要换成Unicode方式：
wchar_t szTitle[] = L"窗体标题";
此时，szTitle字符串使用的的是Unicode编码，加入你的程序以unicode方式编译，在任何语言的Windows上都能显示正常。

字符编码的转换

有时候你从外部文件读进来的字符串是MBCS编码（如GB2312），而你程序里面都是统一用Unicode处理字符串，这时候要进行字符编码转换。 Windows为我们提供了很好用的API函数 MultiByteToWideChar 和 WideCharToMultiByte 帮我们轻松实现转换。代码如下：

GB2312 转换成 Unicode：

CODE:

wchar_t* GB2312ToUnicode(const char* szGBString)
{
           UINT nCodePage = 936; //GB2312
           int nLength=MultiByteToWideChar(nCodePage,0,szGBString,-1,NULL,0);
           wchar_t* pBuffer = new wchar_t[nLength+1];
           MultiByteToWideChar(nCodePage,0,szGBString,-1,pBuffer,nLength);
           pBuffer[nLength]=0;
           return pBuffer;
}

BIG5 转换成 Unicode：

CODE:

wchar_t* BIG5ToUnicode(const char* szBIG5String)
{
           UINT nCodePage = 950; //BIG5
           int nLength=MultiByteToWideChar(nCodePage,0,szBIG5String,-1,NULL,0);
           wchar_t* pBuffer = new wchar_t[nLength+1];
           MultiByteToWideChar(nCodePage,0,szBIG5String,-1,pBuffer,nLength);
           pBuffer[nLength]=0;
           return pBuffer;
}

Unicode 转换成 GB2312：

CODE:

char* UnicodeToGB2312(const wchar_t* szUnicodeString)
{
           UINT nCodePage = 936; //GB2312
           int nLength=WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,NULL,0,NULL,NULL);
           char* pBuffer=new char[nLength+1];
           WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,pBuffer,nLength,NULL,NULL);
           pBuffer[nLength]=0;
           return pBuffer;
}

Unicode 转换成 BIG5：

CODE:

char* UnicodeToBIG5(const wchar_t* szUnicodeString)
{
           UINT nCodePage = 950; //BIG5
           int nLength=WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,NULL,0,NULL,NULL);
           char* pBuffer=new char[nLength+1];
           WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,pBuffer,nLength,NULL,NULL);
           pBuffer[nLength]=0;
           return pBuffer;
}

繁体和简体的相互转换

利用Unicode作为媒介，还可以做出很有意思的应用。在处理中文过程中，一个经常用到的功能就是繁体和简体的互相转换。代码如下：

繁体中文BIG5 转换成简体中文 GB2312

CODE:

char* BIG5ToGB2312(const char* szBIG5String)
{
           LCID lcid = MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);

           wchar_t* szUnicodeBuff = BIG5ToUnicode(szBIG5String);
           char* szGB2312Buff = UnicodeToGB2312(szUnicodeBuff);

           int nLength = LCMapString(lcid,LCMAP_SIMPLIFIED_CHINESE, szGB2312Buff,-1,NULL,0);
           char* pBuffer = new char[nLength + 1];
           LCMapString(0x0804,LCMAP_SIMPLIFIED_CHINESE,szGB2312Buff,-1,pBuffer,nLength);
           pBuffer[nLength] = 0;

           delete[] szUnicodeBuff;
           delete[] szGB2312Buff;
           return pBuffer;
}

简体中文 GB2312 转换成繁体中文BIG5

CODE:

char* GB2312ToBIG5(const char* szGBString)
{
           LCID lcid = MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);

           int nLength = LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGBString,-1,NULL,0);
           char* pBuffer=new char[nLength+1];
           LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGBString,-1,pBuffer,nLength);
           pBuffer[nLength]=0;

           wchar_t* pUnicodeBuff = GB2312ToUnicode(pBuffer);
           char* pBIG5Buff = UnicodeToBIG5(pUnicodeBuff);

           delete[] pBuffer;
           delete[] pUnicodeBuff;
           return pBIG5Buff;
}

文本文件读写的编码问题

当你的程序读一个文本文件时，如何判断文件中的字符是MBCS格式还是Unicode格式？ Windows定义了一个"字节顺序标记"(Byte-order Mark)的概念：当一个txt文件的前2个字节为FF FE时，这个文件里面的字符采用Unicode编码，如果没有字节顺序标记，就是MBCS编码。更多关于字节顺序标记的说明，请看 MSDN的官方资料。