《393. UTF-8 编码验证》题解

Charles@TechBlog

已于 2024-02-22 18:08:42 修改

阅读量7.1k

点赞数 21

分类专栏：算法刷题文章标签： leetcode 算法职场和发展 Python 模拟

于 2022-03-13 22:55:49 首次发布

本文链接：https://blog.csdn.net/shaoshaoh/article/details/123468360

版权

算法刷题专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

393. UTF-8 编码验证

原题

给定一个表示数据的整数数组 data ，返回它是否为有效的 UTF-8 编码。

UTF-8 中的一个字符可能的长度为 1 到 4 字节，遵循以下的规则：

对于 1 字节的字符，字节的第一位设为 0 ，后面 7 位为这个符号的 unicode 码。

对于 n 字节的字符 (n > 1)，第一个字节的前 n 位都设为1，第 n+1 位设为 0 ，后面字节的前两位一律设为 10 。剩下的没有提及的二进制位，全部为这个符号的 unicode 码。

这是 UTF-8 编码的工作方式：

字符数字区间（十六进制）	UTF-8 序列（二进制）
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

注意：输入是整数数组。只有每个整数的最低 8 个有效位用来存储数据。这意味着每个整数只表示 1 字节的数据。

示例 1：

输入：data = [197,130,1]
输出：true
解释：数据表示字节序列:11000101 10000010 00000001。
这是有效的 utf-8 编码，为一个 2 字节字符，跟着一个 1 字节字符。

示例 2：

输入：data = [235,140,4]
输出：false
解释：数据表示 8 位的序列: 11101011 10001100 00000100.
前 3 位都是 1 ，第 4 位为 0 表示它是一个 3 字节字符。
下一个字节是开头为 10 的延续字节，这是正确的。
但第二个延续字节不以 10 开头，所以是不符合规则的。

提示:

1 <= data.length <= 2 * 104
0 <= data[i] <= 255

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/utf-8-validation
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

思路

首先分析题目的意思，输入会是一个整数的数组，数字的范围是 0 ～ 255，代表的是二进制的 00000000 ~ 11111111，正好是一个字节的二进制表示。可以想象成二进制的字节流。一次收到一个字节。怎么确认这一段数据，是一个有效的 UTF-8 编码的字串呢？

根据题目意思，UTF-8 是一个变长编码的字节流，一个字符可能是 1 个字节到 4 个字节。如果，我们能够按照 UTF-8 的编码规则，将整个字节流，切割成一个个合法的“字符”，那这个数据就是合法的 UTF-8 串，换句话说，如果有字节是多余的，或者不足的，就不是一个合法的 UTF-8 字符串。

我们可以根据规则来模拟：

看到一个 0 开头的，我们认为是单字节的字符；
看到 110 开头的，我们认为是双字节字符，检查跟随的1个字节，是不是 10 开头；
看到 1110 开头的，我们认为是三字节字符，检查跟随的2个字节，是不是 10 开头；
看到 11110 开头的，我们认为是四字节字符，检查跟随的3个字节，是不是 10 开头；

除了上述的情况，多出来的，或者缺少的字节，就会导致整个字符串非法。

代码

class Solution:
    def validUtf8(self, data: List[int]) -> bool:
        p = 0
        n = len(data)
        # Python 里将整数转换成二进制字符串
        def binrep(num: int):
            rep = '00000000' + bin(data[p])[2:]
            return rep[len(rep) - 8:]

        while p < n:
            rep = binrep(data[p])
            # 单字节
            if rep.startswith('0'):
                p += 1
            else:
                # 二到四字节
                for i in range(2, 5):
                    prefix = '1' * i + '0'
                    if rep.startswith(prefix):
                        p += 1
                        for j in range(i - 1):
                            if p >= n: return False # 字符不够用了，就是非法字符
                            rep = binrep(data[p])
                            if not rep.startswith('10'):
                                # 不满足跟随字符的格式，就是非法字符
                                return False
                            p += 1
                        break 
                else: # 注意：这里是一个 Python 的编码技巧
                    # 不满足二到四字节的开头字符的格式，就是非法字符
                    return False
        return True