C++编码转换整理

最新推荐文章于 2024-04-12 13:30:58 发布

weixin_33985507

最新推荐文章于 2024-04-12 13:30:58 发布

阅读量105

点赞数

文章标签： c/c++

原文链接：http://blog.51cto.com/jianshusoft/808356

版权

Windows CRT 是不支持 UTF-8 编码作为 locale 的，运行时使用 setlocale(LC_ALL, ".65001") 会失败。

使用 Linux 和 Cygwin 的 glibc 时，要在终端显示正确的中文，需满足以下条件：

不要混用 char 和 wchar_t 版本的流操作函数，否则会导致这些函数运行异常，我用Cygwin GCC 4测试混用 printf() 和 wprintf() 时，程序甚至崩掉，所以要将上面程序中 printf() 语句全注释掉才行。Window CRT 的实现则没有这个问题。
运行环境的 locale 设置要和程序中 setlocale() 设定的 locale 一致，比如：终端的活动字符集、环境变量（一般用 LANG），要设置为 *.UTF-8，才能显示 setlocale(LC_ALL, "zh_CN.UTF-8") 设定的 wchar_t 的中文字符。
用 GCC 编译时，要使用 UTF-8 编码保存源文件，这是 GCC 在编译时，将 wchar_t 文字量（以 L 打头）正确转换为 UCS 编码保存在对象文件中的必需条件，用 Native ANSI 编码（比如：GBK）有 wchar_t 文字量的源文件时，GCC 会编译出错，Linux 和 Cygwin 的 GCC 都有这个约束。另外在 Linux GCC 使用 UCS-4 编码保存 wchar_t，而 Windows 和 Cygwin GCC 使用 UCS-2。
用 wprintf() 时，要用 %ls 表示 wchar_t 的字符串，用 %s 表示 char 的字符串，具体参考：man 3 wprintf，而 Windows 的实现用 %ls、%s 都可以正确输出 wchar_t 字符串。

今天遇到个编码转换的问题，需要把unicode编码转换为多字节(这里是GB)，对函数wcstombs()的使用总是出问题，想起sunshine师兄写的关于多字节转unicode时对函数mbstowcs()的使用(wcstombs()函数的兄弟~)，所以决定找unicode的代码页，但是只找到了UTF7和UTF8的代码页，无奈之下只好搜网上对wcstombs的使用了，发现wcstombs和mbstowcs的使用并不完全一样，在unicode到多字符的转换过程中，需要指明多字符的代码页，并不像我原来想的那样"需要指明前面一个一个字符集的代码页"。

使用如下:(unicode 到GB)

setlocale(LC_ALL, ".936");
wcstombs(char * to,wchar_t * from,size_t _maxCount);//

后来想想，多字节有很多种，而款字节只有unicode，所以不论是从"宽"到"多"还是从"多"到"宽"，需要指明的都是"多"。

Linux下面的没有命名为 WideCharToMultiByte() 和 MultiByteToWideChar() 函数，WideCharToMultiByte，MultiByteToWideChar是windows下的函数，在linux下也有类似的两个函数：

mbstowcs()
wcstombs()

值得注意的是:

size_t mbstowcs(wchar_t *wcstr,const char *mbstr,size_t count);

这个函数的第三个参数count，大小一定要是mbstr长度的2倍，否则出来的中文也会是乱码。

测试一下：

    setlocale(LC_ALL,"zh_CN.GB18030");
    wchar_t wcstr[20] = L"字符测试123abc";

    int len = wcslen(wcstr)+1;
    printf("len = %d /n",len);
    for(int i = 0; i < len; i++)
        printf("0x%08x ",wcstr[i]);
    printf("/n");

    char str[55] = {0};
    int n = wcstombs(str,wcstr,55);
    if(-1 == n)
    {
    perror("wcstombs ");
    exit(-1);
    }
    printf("n = %d/n",n);
    for(int i = 0; i < n+1; i++)
        printf("0x%08x ",str[i]);
    printf("/n");
    wchar_t wch[50]={0};
    int m = mbstowcs(wch,str,n);
    if(m == -1)
    {
    perror("Converting");
    exit(-1);
    }
    printf("m = %d/n",m);
    for(int i =0; i<m+1;i++)
    printf("0x%08x ",wch[i]);
    printf("/n");
    return 0;
}

还有呢，转码还可以使iconv函数族，包含以下三个函数：
iconv_t iconv_open(const char *tocode, const char *fromcode);

size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);

int iconv_close(iconv_t cd);

测试一下：

#include <stdio.h>
#include <iconv.h>
#include <string.h>

#define BUFLEN 256

char outbuf[BUFLEN];
char inbuf[BUFLEN] = "characters convertion";

int main()
{
     char *pin = inbuf;
     char *pout = outbuf;

     int inlen = strlen(pin);
     int outlen = BUFLEN;

int retsize;

iconv_t cd;

cd = iconv_open("UTF-8", "GBK");

     if((iconv_t)-1 == cd) {
             perror("iconv_open error");
             return -1;
     }

retsize = iconv(cd, &pin, (size_t *)&inlen, &pout, (size_t *)&outlen);

     if((size_t)-1 == retsize) {
             perror("iconv error");
             return -2;
     }

     if(outlen > 0) {
             printf("%s/n", outbuf);
     }

iconv_close(cd);

return 0;
}

另外

关于Linux下转码的资料，这里比较全：

http://www.360doc.com/content/11/0119/14/1317564_87612492.shtml

仔细读，所有的问题基本都可以找到答案

转载于:https://blog.51cto.com/jianshusoft/808356

weixin_33985507

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
C++编码转换整理

Windows CRT 是不支持 UTF-8 编码作为 locale 的，运行时使用 setlocale(LC_ALL, ".65001") 会失败。使用 Linux 和 Cygwin 的 glibc 时，要在终端显示正确的中文，需满足以下条件：不要混用 char 和 wchar_t 版本的流操作函数，否则会导致这些函数运行异常，我用Cygwi...
复制链接

扫一扫