LeetCode每日一题：面试题17.13.恢复空格

最新推荐文章于 2024-08-14 11:57:07 发布

CoderZhangsM

最新推荐文章于 2024-08-14 11:57:07 发布

阅读量168

点赞数 1

分类专栏：刷题笔记文章标签：算法 leetcode 动态规划数据结构

本文链接：https://blog.csdn.net/jarvis66/article/details/107235180

版权

刷题笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

题目描述

哦，不！你不小心把一个长篇文章中的空格、标点都删掉了，并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!“已经变成了"iresetthecomputeritstilldidntboot”。在处理标点符号和大小写之前，你得先把它断成词语。当然了，你有一本厚厚的词典dictionary，不过，有些词没在词典里。假设文章用sentence表示，设计一个算法，把文章断开，要求未识别的字符最少，返回未识别的字符数。

注意：本题相对原题稍作改动，只需返回未识别的字符数

示例：

输入：
dictionary = [“looked”,“just”,“like”,“her”,“brother”]
sentence = “jesslookedjustliketimherbrother”

输出：
7

解释：断句后为"jess looked just like tim her brother"，共7个未识别字符。

提示：

0 <= len(sentence) <= 1000
dictionary中总字符数不超过 150000。
你可以认为dictionary和sentence中只包含小写字母。

思路：

这是一道动态规划的问题，我的思路是使用一个标记数组 $state\_vec$ 来记录序列 $s e n t e n c e$ 中每个位置之前有多少字符无法识别。例如 $state\_vec[5]=4$ 就表示 $s e n t e n c e [0 : 5]$ 中有4个字符无法被识别。

有了这个数组，在遍历序列的过程就使用暴力的方法，定义两个标记 $i$ 和 $j$ ，其中 $i\in[0,len(sentence)), j\in[1,max\_word\_length+1)$ 。这里的 $max\_word\_length$ 是指词典中最长的单词的长度。遍历过程中， $i$ 一步一步地向后移动，而对于每个 $i$ ， $j$ 也逐步向后探测。

当存在一个子序列 $s e n t e n c e [i : j]$ 能够与词典当中的词匹配时， $state\_vec[i+j]$ 的值为 $min(state\_vec[i+j], state\_vec[i])$ ，也就是如果前面几个字母能匹配上字典当中的一个词，那么这个词后面位置的标记数组的值会取原数值和 $i$ 位置的值的较小值。

如果在 $j$ 的遍历过程中 $s e n t e n c e [i : j]$ 无法匹配词典当中的词，那么 $state\_vec[i+j]$ 的值要么保持不变，要么是前一个位置的值加1（取较小的值），即 $state\_vec[i+j] = min(state\_vec[i+j], state\_vec[i+j-1] + 1)$

遍历到最后，标记数组最后一个元素就是整个序列无法识别的字符数量。

代码（python）：

dictionary = ["looked","just","like","her","brother"]
sentence = "jesslookedjustliketimherbrother"
dictionary_set = set(dictionary)
max_word_length = 0
not_recog = 0
state_vec = [i for i in range(len(sentence)+1)]
for word in dictionary:
    max_word_length = max(len(word), max_word_length)
for i in range(len(sentence)):
    for j in range(1, max_word_length+1):
        if i+j > len(sentence):
            break
        if sentence[i:i+j] in dictionary_set:
            state_vec[i+j] = min(state_vec[i+j], state_vec[i])
        else:
            state_vec[i+j] = min(state_vec[i+j], state_vec[i+j-1] + 1)
not_recog = state_vec[len(sentence)]
print(not_recog)

CoderZhangsM

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LeetCode每日一题：面试题17.13.恢复空格

题目描述哦，不！你不小心把一个长篇文章中的空格、标点都删掉了，并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!“已经变成了"iresetthecomputeritstilldidntboot”。在处理标点符号和大小写之前，你得先把它断成词语。当然了，你有一本厚厚的词典dictionary，不过，有些词没在词典里。假设文章用sentence表示，设计一个算法，把文章断开，要求未识别的字符最少，返回未识别的字符数。注意：本题相对原题稍作改动
复制链接

扫一扫