总结：Unicode、GBK、UTF-8之间的区别

最新推荐文章于 2025-03-06 00:29:56 发布

灵哎惹,凌沃敏

最新推荐文章于 2025-03-06 00:29:56 发布

阅读量4.7k

点赞数 3

分类专栏：程序人生 linux C/C++ 文章标签：计算机网络 c++ 编程语言编码学

本文链接：https://blog.csdn.net/u011764302/article/details/117595610

版权

C/C++ 同时被 3 个专栏收录

35 篇文章

订阅专栏

程序人生

16 篇文章

订阅专栏

linux

14 篇文章

订阅专栏

Unicode：所有字符都是两个字节，对于英文字符，高字节为0，低字节与ASCII码相同

GB2312：一个小于127的字符的意义与原来相同, 但两个大于127的字符连在一起时, 就表示
一个汉字, 前面的一个字节(他称之为高字节)从0xA1用到 0xF7, 后面一个字节(低字节)
从0xA1到0xFE, 这样我们就可以组合出大约7000多个简体汉字了. 在这些编码里, 我们还
把数学符号,罗马希腊的字母,日文的假名们都编进去了, 连在 ASCII 里本来就有的数字
,标点,字母都统统重新编了两个字节长的编码, 这就是常说的"全角"字符, 而原来在127
号以下的那些就叫"半角"字符了。

GBK：中文字符为两个字节；英文字符为1个字节，且与ASCII码相同。GBK主要是为了弥补GB2312中文字符不足的问题，GBK不再限定低字节必须大于127了，由此扩展了20000多个码位；GBK与Unicode是完全不同的两种编码形式，没有转换规则，互相之间的转换只能通过查表法。

UTF-8：其编码规则为：

其英文字符为一个字节，中文字符为3个字节，中文字符使用的Unicode码，因此要把GBK转成UTF-8，要先转成Unicode。

综上，对于包含中英文字符的文件，用GBK和GB2312最省流量；对于只包含英文字符的文件用除Unicode以外的任意编码都一样；Unicode在任何情况下都不具备优势；而GBK和GB2312似乎在任何情况下都具备优势，这就是为什么GBK和GB2312能够后来居上了。

附GBK转Unicode函数：

void gbk2unicode(char *gbk, char *unicode)
{
    unsigned short code_gbk,code_uni;

    int slen=strlen(gbk);
    int ulen=0;
    int k=0;
    while(k<slen)
    {
        if(gbk[k]<0x80)
        {
            unicode[ulen++]=0;
            unicode[ulen++]=gbk[k];
            k+=1;
        }
        else
        {
            code_gbk=0;
            code_gbk+=gbk[k];
            k+=1;
            code_gbk<<=8;
            code_gbk+=gbk[k];
            code_uni=ff_convert(code_gbk,1);
            unicode[ulen++]=code_uni>>8;
            unicode[ulen++]=code_uni&0xff;
            k+=1;
        }
    }
}

其中的 ff_convert 函数来自cc936.c，其实就是执行了个查表操作。

附Unicode转UTF-8函数：

void UnicodeToUtf8(char* pInput, char *pOutput)
{
    int ulen=0;
    unsigned short code_uni;

    int k=0;
    while(pInput[k]!=0 || pInput[k+1]!=0)
    {
        code_uni=0;
        code_uni+=pInput[k];
        code_uni<<=8;
        k++;
        code_uni+=pInput[k];
        k++;
        // printf("codeuni=%d,ulen=%d\n", code_uni,ulen);
        if(code_uni<0x80)
        {
            pOutput[ulen++]=code_uni;
        }
        else
        {
            if(code_uni<0x800)
            {
                pOutput[ulen++]=0xc0|code_uni>>6;  //高5位
                pOutput[ulen++] = 0x80 | (code_uni & 0x3f);
            }
            else
            {
                pOutput[ulen++]=0xe0|code_uni>>12; //高4位
                pOutput[ulen++] = 0x80 | ((code_uni >> 6) & 0x3f);    //中间6位
                pOutput[ulen++] = 0x80 | (code_uni & 0x3f);           //低6位
            }
        }
    }
    pOutput[ulen]=0;
}