C++代码判断字符编码类型及编码格式转换(utf-8、gbk)

最新推荐文章于 2022-12-26 17:02:36 发布

Bubblegarden

最新推荐文章于 2022-12-26 17:02:36 发布

阅读量1.2w

点赞数 10

文章标签： C/C++ utf-8 gbk

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38595946/article/details/103128955

版权

这篇文章主要是将go语言实现的版本改为C/C++版本实现，主要思路是一样的，具体思路请看:
GO代码实现判断字符编码格式及编码格式转换（utf-8、gbk）
而本文更主要说明windows及linux平台下utf-8与gbk的转换。

判断是否是gbk

bool isGBK(unsigned char* data, int len)  {
    int i  = 0;
    while (i < len)  {
        if (data[i] <= 0x7f) {
            //编码小于等于127,只有一个字节的编码，兼容ASCII
            i++;
            continue;
        } else {
            //大于127的使用双字节编码
            if  (data[i] >= 0x81 &&
                data[i] <= 0xfe &&
                data[i + 1] >= 0x40 &&
                data[i + 1] <= 0xfe &&
                data[i + 1] != 0xf7) {
                i += 2;
                continue;
            } else {
                return false;
            }
        }
    }
    return true;
}

判断是否是utf-8

int preNUm(unsigned char byte) {
    unsigned char mask = 0x80;
    int num = 0;
    for (int i = 0; i < 8; i++) {
        if ((byte & mask) == mask) {
            mask = mask >> 1;
            num++;
        } else {
            break;
        }
    }
    return num;
}


bool isUtf8(unsigned char* data, int len) {
    int num = 0;
    int i = 0;
    while (i < len) {
        if ((data[i] & 0x80) == 0x00) {
            // 0XXX_XXXX
            i++;
            continue;
        }
        else if ((num = preNUm(data[i])) > 2) {
        // 110X_XXXX 10XX_XXXX
        // 1110_XXXX 10XX_XXXX 10XX_XXXX
        // 1111_

最低0.47元/天解锁文章

关注

10
点赞
踩
51

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Bubblegarden CSDN认证博客专家 CSDN认证企业博客

码龄7年

3: 原创

114万+: 周排名

127万+: 总排名

2万+: 访问

: 等级

259: 积分

2: 粉丝

14: 获赞

6: 评论

69: 收藏

私信

关注

热门文章

最新评论

C++代码判断字符编码类型及编码格式转换(utf-8、gbk)
笨笨284: 是剔除7F不是F7，原文有误
C++代码判断字符编码类型及编码格式转换(utf-8、gbk)
笨笨284: 为啥判断GBK时要排除第二字节F7，不排除也是成立的啊
C++代码判断字符编码类型及编码格式转换(utf-8、gbk)
小黑屋1024: 但是我理解的是，博主本文的主题为：拿到一个字符串，可以通过getCoding判断字符串的编码是utf8还是gbk。而我举得例子：gbk编码下的“鍟夽”字符串，输入到getCoding很明显会被判定成utf8格式，所以我感觉会有问题。
C++代码判断字符编码类型及编码格式转换(utf-8、gbk)
henrychan9810: 按博主utf8的判断逻辑（这个我也不清楚对不对），第一个字节前三个字符是1，说明后面只会跟两个字节。第三个字节当做下一个字符处理了，一直循环到文件末尾，如果都符合utf8的规则，就优先按utf8的编码处理。当然你也可以按gbk的规则处理
C++代码判断字符编码类型及编码格式转换(utf-8、gbk)
小黑屋1024: 字符串“鍟夽”的GBK编码是0xEA958A40，字符串“啊@”的UFT-8编码也是0xEA958A40，怎么办？

大家在看

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。