393. UTF-8 编码验证

UTF-8 中的一个字符可能的长度为 1 到 4 字节,遵循以下的规则:

对于 1 字节的字符,字节的第一位设为0,后面7位为这个符号的unicode码。 对于 n 字节的字符 (n > 1),第一个字节的前 n
位都设为1,第 n+1 位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
注意: 输入是整数数组。只有每个整数的最低 8 个有效位用来存储数据。这意味着每个整数只表示 1 字节的数据。

来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/utf-8-validation
著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。

bool validUtf8(int* data, int dataSize){
    int counter = 0;
    for(int i = 0; i < dataSize; i++)
    {
        if(counter > 0)
        {
            if(data[i] >> 6 != 2) return false;
            counter--;
        }
        else if(data[i] >> 7 == 0)
        {
            counter = 0;
        }
        else if((data[i] >> 5) == 6)
        {
            counter = 1;
        }
        else if((data[i] >> 4) == 14)
        {
            counter = 2;
        }
        else if((data[i] >> 3) == 30)
        {
            counter = 3;
        }
        else
        {
            return false;
        }
    }
    if(counter == 0) return true;

    return false;
}

思路:按照题目要求,判断前缀,前缀只有4种,0xxx xxxx, 110xx xxxx, 1110x xxxx, 11110 xxxx,其他都是错误的。还有如果是11110 xxxx, 那么接下来的三个数字前缀都是10xx xxxx格式。假如有第四个数字,那么前缀不能为10xx xxxx格式,只能是0xxx xxxx这样的,不然就是错误的格式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值