UTF8转UCS——被微软折磨的日子

前言

前段时间搞协议,遇到些编码的问题,非英文的字符一直传输失败。搞得还以为开发者不支持中文,还给大佬发了个邮件,Is there any plan to support non-English?。大佬一直没回我,不知道是感觉我问的太傻X了还是没看到我的邮件。
研究了下协议传递非英文字符的问题,这个协议必须把字符串以utf8格式传进去,然后这个协议将utf8编码转换成UCS2,再通过网络发出去。
在windows下开一个dos窗口,chcp 65001切换成utf8。中文输入还是不行,转换ucs2失败。顺便研究了一下utf8和UCS2编码。
同样的程序,在linux下命令行输入就可以转换ucs2,难道是windows命令行通过chcp 65001转换后,传到程序的还不是utf8?事实证明,确实这样,windows dos命令行切换utf8后,显示的可以是utf8,但是输入的还不是。好了,让c#去调用吧,转换成utf8的byte[]数组后喂给它,问题解决,完美。
提供一个c下的utf8、ucs编码互转的代码。请移步我的github,移植自某开源协议:https://github.com/wangzhhbj/some-c-tools/tree/master/Transcoding

UTF8

UTF,是UnicodeTransformation Format的缩写,意为Unicode转换格式。
UTF-8是UNICODE的一种变长字符编码,UTF-8用1到6个字节编码UNICODE字符。对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。UTF-8最多可用到6个字节。
如表:
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
因此UTF-8中可以用来表示字符编码的实际位数最多有31位,即上表中x所表示的位。除去那些控制位(每字节开头的10等),这些x表示的位与UNICODE编码是一一对应的,位高低顺序也相同。
实际将UNICODE转换为UTF-8编码时应先去除高位0,然后根据所剩编码的位数决定所需最小的UTF-8编码位数。
因此那些基本ASCII字符集中的字符(UNICODE兼容ASCII)只需要一个字节的UTF-8编码(7个二进制位)便可以表示。

Unicode - UCS - 万国码

通用字符集 - UCS(Universal Character Set)
UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。

UCS-2对每一个Unicode码位使用2bytes字集(16位bit);
UCS-4对每一个Unicode码位使用4bytes字集(32位bit);
UTF-16可看成是UCS-2的父集。在没有辅助平面字符(surrogate code points)前,UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后,就称为UTF-16了。现在若有软件声称自己支持UCS-2编码,那其实是暗指它不能支持在UTF-16中超过2bytes的字集。对于小于0x10000的UCS码,UTF-16编码就等于UCS码。
UTF-32 原本是 UCS-4 的子集,但JTC1/SC2/WG2声明,所有未来对字符的指定都将会限制在BMP及其14个补充平面。于是就现状而言,除了 UTF-32 标准包含额外的 Unicode 意涵,UCS-4 和 UTF-32 大体是相同的。

转换

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

UCS-2编码(16进制)UTF-8 字节流(二进制)
0000 - 007F0xxxxxxx
0080 - 07FF110xxxxx 10xxxxxx
0800 - FFFF1110xxxx 10xxxxxx 10xxxxxx

关键函数

直接上代码,完整请移步github,移植自某开源协议:https://github.com/wangzhhbj/some-c-tools/tree/master/Transcoding

/*
 *---------------------------------------------------
 * ucs2              : UTF8
 * utf32             1 Bytes 0xxxxxxx 
 * utf32             2 Bytes 110xxxxx 10xxxxxx 
 * utf32             3 Bytes 1110xxxx 10xxxxxx 10xxxxxx 
 * utf32             4 Bytes 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
 */
static int
utf8toutf32(const unsigned char **pp, uint32_t *out)
{
    const unsigned char *p = *pp;
    unsigned c = *p;

    if (c & 0x80)  // c & 0b10000000,返回值非0表明是超过1个字节的编码
    {
        if ((c & 0xE0) == 0xC0)   // 2字节编码场景,(c & 0b11100000)==0b11000000,符合 110xxxxx 
        {
            const unsigned c2 = *++p;  // 判断下一个字节,符合10xxxxxx 
            if ((c2 & 0xC0) == 0x80)   //  (c2 & 0b11000000)==0b10000000 
            {
                *out =  ((c  & 0x1F) << 6) | (c2 & 0x3F);
            } 
            else // 不符合110xxxxx 10xxxxxx 
            {
                return WIND_ERR_INVALID_UTF8;
            }
        } 
        else if ((c & 0xF0) == 0xE0)    //3字节场景 (c & 0b11110000)==0b11100000,满足1110xxxx
        {
            const unsigned c2 = *++p;
            if ((c2 & 0xC0) == 0x80)    //判断下一字节 (c2 & 0b11000000)==0b10000000,满足10xxxxxx
            {
                const unsigned c3 = *++p;
                if ((c3 & 0xC0) == 0x80)    //判断下一字节 (c3 & 0b11000000)==0b10000000,满足10xxxxxx
                {
                    *out =   ((c  & 0x0F) << 12)
                    | ((c2 & 0x3F) << 6)
                    |  (c3 & 0x3F);
                } 
                else 
                {
                    return WIND_ERR_INVALID_UTF8;
                }
            } 
            else 
            {
                return WIND_ERR_INVALID_UTF8;
            }
        } 
        else if ((c & 0xF8) == 0xF0)     // (c & 0b11111000)==0b11110000  4字节场景
        {
            const unsigned c2 = *++p;
            if ((c2 & 0xC0) == 0x80)      // 3字节, (c2 & 0b11000000)==0b10000000,满足10xxxxxx
            {
                const unsigned c3 = *++p;
                if ((c3 & 0xC0) == 0x80)       // 2字节, (c2 & 0b11000000)==0b10000000,满足10xxxxxx
                {
                    const unsigned c4 = *++p;
                    if ((c4 & 0xC0) == 0x80)   // 1字节, (c2 & 0b11000000)==0b10000000,满足10xxxxxx
                    {
                        *out =   ((c  & 0x07) << 18)
                            | ((c2 & 0x3F) << 12)
                            | ((c3 & 0x3F) <<  6)
                            |  (c4 & 0x3F);
                    } 
                    else 
                    {
                        return WIND_ERR_INVALID_UTF8;
                    }
                } 
                else 
                {
                    return WIND_ERR_INVALID_UTF8;
                }
            } 
            else 
            {
                return WIND_ERR_INVALID_UTF8;
            }
        } 
        else 
        {
            return WIND_ERR_INVALID_UTF8;
        }
    } 
    else 
    {
        *out = c;  //单个字节场景
    }

    *pp = p;

    return 0;
}

参考资料

《请问UTF-8与UCS-2之间有何区别与联系》https://www.zhihu.com/question/302200063/answer/530692688
《搞懂编码 GBK 和 UTF8》https://www.zhihu.com/question/302200063/answer/530692688
《软件中的字符串编码, UCS2, UTF8哪个更优》https://www.zhihu.com/question/346965173/answer/832323946
《UTF8和UCS2》https://blog.csdn.net/a13935302660/article/details/77507809

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Delphi是一种编程语言,它支持字符串的编码方式有很多种,其中一种是UTF-8。当我们使用UTF-8编码的字符串文件,可能会出现乱码的情况,这种情况可能是由于文件保存时使用了其他编码格式或者文件本身内容就是乱码造成的。我们需要使用一些方法来进行UTF-8转换,从而解决乱码问题。 首先,可以尝试使用系统自带的函数进行UTF-8编码和解码处理,比如使用"AnsiToUtf8"函数将字符串转换为UTF-8编码格式。但是需要注意的是,这种方法只支持部分字符集,如果遇到一些非常规字符,依然可能会出现乱码。 其次,我们可以使用第三方库进行UTF-8转换。比如"iconv"库可以将不同编码格式的字符串相互转换,比如将ANSI编码格式的字符串转换成UTF-8编码格式的字符串。另外,还有一些Unicode库也可以进行UTF-8转换,比如"JEDI Code Library"。 最后,如果以上两种方法都不行,可以考虑使用文本编辑器处理乱码问题。比如将文本编辑器的编码格式修改为UTF-8格式,再打开乱码文件,并保存一遍即可。这种方法虽然比较麻烦,但往往可以解决绝大部分乱码问题。 ### 回答2: Delphi 是 Pascal 语言的一个高级集成开发环境,它支持 Unicode 编码。但在一些特定情况下,当我们使用 UTF-8 编码时,Delphi 可能会出现乱码问题。 要解决这个问题,我们可以采取以下方法: 1. 设置字符集 在 Delphi 的字符串和文件中,我们可以设置字符集以指示编码格式。可以使用 TEncoding 类和 TStringStream 类来集中处理编码问题,以便让 Delphi 处理 UTF-8 格式的数据时不会出现乱码。 2. 采用 Unicode 字符串 Unicode 是由万国码 (UCS)(Universal Character Set,ISO 10646)标准统一编码方式,它允许处理任何语言所使用的字符。在 Delphi 中,我们可以使用 Unicode 字符串来处理 UTF-8 编码的数据,以避免乱码问题。 3. 码 如果从其他程序获得的 UTF-8 编码的数据出现了乱码问题,我们可以尝试将其转换成 Delphi 可以处理的编码方式,比如 Unicode 字符串,可以使用 TEncoding 类进行转换。 总之,在 Delphi 中处理 UTF-8 格式的数据时出现乱码问题,我们应该通过设置字符集、采用 Unicode 字符串、码等方法来解决。这样可以确保 Delphi 处理这些数据时不会出现编码相关的错误。 ### 回答3: Delphi 是一种编程语言,在字符编码方面,它默认使用的是 ASCII 编码。而 UTF-8 是一种全球通用的字符编码方式,它支持各种语言文字的编码和展示。因此,在 Delphi 中进行 UTF-8 编码转换时可能会出现乱码的情况。 若要解决 Delphi UTF-8 转换乱码问题,可以使用 Delphi 中自带的 WideString 类型,在这种类型下,可以使用 WideChar 格式对字符进行编码和解码,避免编码转换过程中出现乱码。 另一种解决 Delphi UTF-8 转换乱码问题的方法是使用第三方库,如 UTF8String、Utf8Decode、Utf8Encode 等,这些库能够将 UTF-8 编码的字符转换为 Unicode 格式的字符,再进一步进行处理,展示出正确的结果。 总之,在 Delphi 中进行 UTF-8 编码转换时,需要注意使用正确的编码方式,防止出现乱码的情况。可以使用 Delphi 自带的 WideString 类型或第三方库来实现 UTF-8 编码转换,保证编码的正确性和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值