unicode to utf8 转化

#include <stdio.h>
#include <stdlib.h>
#include <wchar.h>

 

//计算需要的char的长度

int wstr2strLen(const wchar_t *pwstr)
{
     int count = 0;
     int i;
     int len = wcslen(pwstr);
     for(i = 0; i < len; ++i)
     {
          unsigned short tmp = *(pwstr + i);
          printf("tmp num is %0x/n", tmp);
          if (tmp < 0x007F)
          {
               count += 1;
          } else if (tmp > 0x0800)
          {
               count += 3;
           }
          else
          {
               count += 2;
          }
     }
     return count;
}

 

//单个字符的转化

/*    UCS-2编码(16进制) UTF-8 字节流(二进制)
        0000 - 007F 0xxxxxxx
        0080 - 07FF 110xxxxx 10xxxxxx
        0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

*/

int W2C(const wchar_t *pw, char *pc)
{
     unsigned short tmp = *pw;
     if (tmp < 0x007F)
     {
          *pc = *pw;
          return 1;
     } 
     else if (tmp > 0x0800)
     {
              *pc = 0xe0 | (((*pw >> 8) & 0xf0) >> 4);
              *(pc + 1) = 0x80 | (((*pw >> 8) & 0x0f) << 2) | ((*pw & 0xc0) >> 6);
              *(pc + 2) = 0x80 | ((*pw & 0x3f));
              return 3;
     }
     else
     {
              *pc = 0xc0 | ((*pw >> 8) & 0x03) << 2 | (*pw & 0xc0) >> 6;
              *(pc + 1) = 0x80 | (*pw & 0x3f);
              return 2;
     }
     return 0;
}

 

//字符串的转化

char *wstr2cstr(const wchar_t *pwstr, char *pcstr, size_t len)
{
     char *ptemp = pcstr;
     if (pwstr != NULL && pcstr != NULL)
     {
          size_t wstr_len = wcslen(pwstr);
          printf("wstr_len is %d/n", wstr_len);
          len = (len > wstr_len) ? wstr_len : len;
          while (len-- > 0 )
          {
               int i = W2C(pwstr, pcstr);
               pwstr++;
               pcstr += i;
          }
          *pcstr = '/0';
          return ptemp;
     }
     return 0;
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在C语言中,将Unicode编码转换为UTF-8可以通过一定的算法和编码规则实现。UTF-8是一种变长的字符编码方式,它可以表示Unicode字符集中的所有字符。 首先需要明确Unicode编码和UTF-8编码之间的映射关系。Unicode是一个字符集,为每个字符分配了一个唯一的编码点,它是一种固定宽度编码。而UTF-8是Unicode字符集中的字符用变长字节序列进行编码的一种方式。 具体操作上,我们可以借助C语言提供的字符串处理函数和位运算来实现Unicode到UTF-8的转换。以下是一个简单的示例代码: ``` #include <stdio.h> void unicodeToUtf8(int unicode) { if (unicode < 0x80) { // 单字节编码 printf("%c", (char)unicode); } else if (unicode < 0x800) { // 双字节编码 printf("%c", (char)((unicode >> 6) | 0xC0)); printf("%c", (char)((unicode & 0x3F) | 0x80)); } else if (unicode < 0x10000) { // 三字节编码 printf("%c", (char)((unicode >> 12) | 0xE0)); printf("%c", (char)(((unicode >> 6) & 0x3F) | 0x80)); printf("%c", (char)((unicode & 0x3F) | 0x80)); } else if (unicode < 0x110000) { // 四字节编码 printf("%c", (char)((unicode >> 18) | 0xF0)); printf("%c", (char)(((unicode >> 12) & 0x3F) | 0x80)); printf("%c", (char)(((unicode >> 6) & 0x3F) | 0x80)); printf("%c", (char)((unicode & 0x3F) | 0x80)); } } int main() { int unicode = 0x4E2D; // Unicode 编码点,例如中文字符 "中" unicodeToUtf8(unicode); return 0; } ``` 上述代码实现了一个简单的函数`unicodeToUtf8`,它接受一个Unicode编码点作为参数,并将其转换为对应的UTF-8编码存储。在`main`函数中,我们将Unicode编码点设置为0x4E2D,即中文字符"中"的Unicode编码,并调用`unicodeToUtf8`进行转换和输出。 需要注意的是,该示例代码只是一个简单的示例,实际应用中需要更完善的处理逻辑,并且UTF-8编码还需要考虑一些特殊情况和规则,例如字节数限制、BOM头等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值