c/c++ 中文字符串转Unicode和UTF8

1. 描述

  在windows上做系统编程,少不了会遇到处理中文字符串的问题。而大多时候中文汉字都是以多字节编码的方式展现的。为了实现更好的兼容性或一些特殊的需求,(比如在网页上显示。)常需要将其转换成unicode或者utf8的格式。


2. 代码示例

2.1 中文字符串转Unicode

/************************************************************************
*int CN2Unicode(char *input,wchar_t *output)
*功能:中文字符转换为unicode字符
*参数:input,包含中文的字符串,output,Unicode字符串
*
*************************************************************************/
int CN2Unicode(char *input,wchar_t *output)
{
    int len = strlen(input);

    //wchar_t *out = (wchar_t *) malloc(len*sizeof(wchar_t));

    len=MultiByteToWideChar(CP_ACP,0,input,-1,output,MAX_PATH);

    return 1;
}

2.2 中文字符串转utf8

/************************************************************************
*int CN2Utf8(char *input,char *output)
*功能:中文字符串转换为utf8字符串
*参数:input,包含中文的字符串,output,utf8字符串
*
************************************************************************/
int CN2Utf8(char *input,char *output)
{
    int len ;
    wchar_t *out = (wchar_t *) malloc(len*sizeof(wchar_t));

    len = MultiByteToWideChar(CP_ACP,0,input,-1,out,strlen(input)+1);
    WideCharToMultiByte(CP_UTF8,0,out,wcslen(out),output,len,NULL,NULL);

    return 1;
}
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
在Linux下,可以使用iconv库进行Unicode编码转换。下面是一个示例代码,将Unicode字符串转换成字节数组、将字节数组转换成Unicode字符串: ```c++ #include <iconv.h> #include <string.h> #include <stdio.h> int main() { // 将Unicode字符串转换成字节数组 const char *unicode_str = u8"\u4F60\u597D"; size_t unicode_len = strlen(unicode_str); size_t buf_len = unicode_len * 4; // 一个Unicode字符最多占4个字节 char *buf = new char[buf_len]; memset(buf, 0, buf_len); iconv_t cd = iconv_open("UTF-8", "UCS-2LE"); char *in_buf = (char*)unicode_str; char *out_buf = buf; size_t in_len = unicode_len; size_t out_len = buf_len; int ret = iconv(cd, &in_buf, &in_len, &out_buf, &out_len); if (ret == -1) { perror("iconv"); return -1; } printf("字节数组: "); for (size_t i = 0; i < buf_len - out_len; ++i) { printf("%02X ", (unsigned char)buf[i]); } printf("\n"); // 将字节数组转换成Unicode字符串 char *byte_str = buf; size_t byte_len = buf_len - out_len; size_t unicode_buf_len = byte_len / 2 + 1; // 一个Unicode字符占2个字节 char *unicode_buf = new char[unicode_buf_len]; memset(unicode_buf, 0, unicode_buf_len); cd = iconv_open("UCS-2LE", "UTF-8"); in_buf = byte_str; out_buf = unicode_buf; in_len = byte_len; out_len = unicode_buf_len; ret = iconv(cd, &in_buf, &in_len, &out_buf, &out_len); if (ret == -1) { perror("iconv"); return -1; } printf("Unicode字符串: %s\n", unicode_buf); delete[] buf; delete[] unicode_buf; return 0; } ``` 需要注意的是,iconv库只能处理单个Unicode字符,如果要处理Unicode字符串,则需要将其拆分成单个Unicode字符进行转换。上面的示例代码中,使用了UCS-2LE编码,可以根据需要修改为其他编码

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值