Leetcode-820. 单词的压缩编码

  • 题目:

给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。

例如,如果这个列表是 ["time", "me", "bell"],我们就可以将其表示为 S = "time#bell#" 和 indexes = [0, 2, 5]。

对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 "#" 结束,来恢复我们之前的单词列表。

那么成功对给定单词列表进行编码的最小字符串长度是多少呢?

 

示例:

输入: words = ["time", "me", "bell"]
输出: 10
说明: S = "time#bell#" , indexes = [0, 2, 5] 。
 

提示:

1 <= words.length <= 2000
1 <= words[i].length <= 7
每个单词都是小写字母 。

看完题目啥意思都不知道,真的,完全不懂。然后思索了一番,直接选择去看大佬的答案。因此这篇完全没有我的思想,就是模仿,学习。学到了就是我的le

发现了大佬的图解这个:(链接放在后面)

 

image.png

然后大佬又提出了一些概念:字典树/Trie树/前缀树

下图演示了一个保存了8个单词的字典树的结构,8个单词分别是:"A", "to", "tea", "ted", "ten", "i", "in", "inn"。

image.png

怎么理解这颗树呢?你从根节点走到叶子节点,尝试走一下所有的路径。你会发现,每条从根节点到叶子节点的路径都构成了单词(有的不需要走到叶子节点也是单词,比如 "i" 和 "in")。trie树里的每个节点只需要保存当前的字符就可以了(当然你也可以额外记录别的信息,比如记录一下如果以当前节点结束是否构成单词)。

你注意到了吗?从根节点出发的路径,都是给定单词列表里某个/某些单词的前缀。反之,如果某个字符串没有出现在这棵树的路径上,那就肯定不是某个单词的前缀。上面说很明显这题是用字典树来做,原因就是:这类很明显是用字典树去做的题目,明显特征就是需要大量地判断某个字符串是否是给定单词列表中的前缀/后缀。 为什么要说后缀也可以呢?因为把单词倒着插入,就可以搜后缀了~

trie的节点的定义就很好给出来了(trie的根节点定义成一个空节点):

class TrieNode {
    char val;
    TrieNode[] children = new TrieNode[26];

    public TrieNode() {}

    public TrieNode(char val) {
        this.val = val;
    }
}

插入单词的操作如下:

public void insert(String word) {
    TrieNode cur = root;
    for (int i = 0; i < word.length(); i++) {
        char c = word.charAt(i);
        if (cur.children[c - 'a'] == null) {
            cur.children[c - 'a'] = new TrieNode(c);
        }
        cur = cur.children[c - 'a'];
    }
}

 

  • 题解

那为什么这题我们要用字典树做呢?因为我们需要知道单词列表里,哪些单词是其它某个单词的后缀。既然要求的是后缀,我们只要把单词的倒序插入字典树,再用字典树判断某个单词的逆序是否出现在字典树里就可以了。

比如示例中的["time", "me", "bell"]的逆序就是["emit", "em", "lleb"]。我们可以发现em是emit的前缀。所以"em"就可以忽略了。我们必须要先插入单词长的数组,否则会有问题。比如如果我先插入了"em",再插入"emit",会发现两个都可以插入进去,很显然是不对的,所以在插入之前需要先根据单词的长度由长到短排序

(排序用到了Lambda语法糖。我当时还不知道,等下发一篇博客补习一下)

class Solution {
    public int minimumLengthEncoding(String[] words) {
        int len = 0;
        Trie trie = new Trie();
        // 先对单词列表根据单词长度由长到短排序
        Arrays.sort(words, (s1, s2) -> s2.length() - s1.length());
        // 单词插入trie,返回该单词增加的编码长度
        for (String word: words) {
            len += trie.insert(word);
        }
        return len;
    }
}

// 定义tire
class Trie {
    
    TrieNode root;
    
    public Trie() {
        root = new TrieNode();
    }

    public int insert(String word) {
        TrieNode cur = root;
        boolean isNew = false;
        // 倒着插入单词
        for (int i = word.length() - 1; i >= 0; i--) {
            int c = word.charAt(i) - 'a';
            if (cur.children[c] == null) {
                isNew = true; // 是新单词
                cur.children[c] = new TrieNode();
            }
            cur = cur.children[c];
        }
        // 如果是新单词的话编码长度增加新单词的长度+1,否则不变。
        return isNew? word.length() + 1: 0;
    }
}

class TrieNode {
    char val;
    TrieNode[] children = new TrieNode[26];

    public TrieNode() {}
}

其它

trie树除了刷题还出现在什么地方呢?

搜索引擎

比如你在搜索引擎里输入””🍬🍬,它会给你一系列以“甜”开头的搜索词供你选择。

image.png

区块链
trie树的进阶版,Merkle Patricia Tree,他能够高效、安全地验证大型数据结构中的数据,我从别的地方摘抄了下摘要:

一种经过改良的、融合了默克尔树和前缀树两种树结构优点的数据结构,以太坊中,MPT是一个非常重要的数据结构,在以太坊中,帐户的交易信息、状态以及相应的状态变更,还有相关的交易信息等都使用MPT来进行管理,其是整个数据存储的重要一环。交易树,收据树,状态树都是采用的MPT结构。

IP路由,倒排索引
这个感兴趣的可以去了解下,我也不太了解,这是听说过可以🤣😂

分词
常见的分词库,或多或少会用到字典树,或者其它类似的存储字符串的树形数据结构(比如"双数组trie树")。原因就是因为它能提供良好的前缀查询(一些分词算法需要大量调用该方法)。

 

大佬链接地址🔗:https://leetcode-cn.com/problems/short-encoding-of-words/solution/99-java-trie-tu-xie-gong-lue-bao-jiao-bao-hui-by-s/

强烈要求多次观摩!!

本题链接🔗:https://leetcode-cn.com/problems/short-encoding-of-words/

前缀树链接🔗:https://leetcode-cn.com/problems/implement-trie-prefix-tree/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值