字符串处理 -- 前缀树(Trie)

1. 简介

        在计算机科学中,trie,又称前缀树字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。 ——维基百科

        有的人也之称为单词查找树,顾名思义,就是像查字典一样快速检索字符串的N叉树,其中每个节点代表一个字符串(通常是前缀)。在这种数据结构中,从根到某一节点的路径表示一个字符串,该字符串是沿途经过的所有字符的组合。

2. 结构

public class Node {
    public int pass; // 经过本节点的字符串个数
    public int end;  // 在本节点结束的字符串个数
    public Node[] nexts;

    public Node(){
        pass  = 0;
        end   = 0;
        nexts = new Node[26]; // 0-25 a-z
    }
}

3. 前缀树的基本操作

创建,查找,插入和删除,但极少出现删除。

    public static class Node {
        public int pass; // 经过本节点的字符串个数
        public int end;  // 在本节点结束的字符串个数
        public Node[] nexts;

        public Node() {
            pass = 0;
            end = 0;
            nexts = new Node[26]; // 0-25 a-z
        }
    }

    public static class Trie {
        private Node root;

        public Trie() {
            root = new Node();
        }

        // 插入字符串
        public void insert(String word) {
            if (word == null) {
                return;
            }
            Node node = root;
            char[] chars = word.toCharArray();
            int index = 0;
            // 遍历字符数组
            for (char aChar : chars) {
                // 当前字符对应的节点
                index = aChar - 'a';
                // 如果当前字符对应的节点为空,则创建
                if (node.nexts[index] == null) {
                    node.nexts[index] = new Node();
                }
                node = node.nexts[index];
                // 经过本节点的字符串个数+1
                node.pass++;
            }
            node.end++;
        }

        // 查询字符串
        public int search(String word) {
            if (word == null) {
                return 0;
            }
            Node node = root;
            char[] chars = word.toCharArray();
            int index = 0;
            for (char aChar : chars) {
                index = aChar - 'a';
                // 如果当前字符对应的节点为空,则返回0
                if (node.nexts[index] == null) {
                    return 0;
                }
                node = node.nexts[index];
            }
            return node.end;
        }

        // 删除字符串
        public void delete(String word) {
            // 如果字符串不存在,则直接返回
            if (search(word) == 0) {
                return;
            }
            Node node = root;
            char[] chars = word.toCharArray();
            int index = 0;
            for (char aChar : chars) {
                index = aChar - 'a';
                // 如果经过本节点的字符串个数为0,则删除本节点(后续的节点都需删除)
                if (--node.nexts[index].pass == 0) {
                    node.nexts[index] = null;
                    return;
                }
                node = node.nexts[index];
            }
        }

    }

4. 算法分析

1. 创建和插入

        若单词的总长度为N,字符串种类为k,插入的字符串长度为n,则创建爱你Trie的复杂度为O(N),空间复杂度为O(Nk),插入字符串的时间复杂度为O(n)。

2. 查找

        在前缀树中查找一个关键字的时间与树中包含的节点数无关,只与关键字的字符数有关。若查找的字符串长度为n,则查找的时间复杂度为O(n)。

5. 前缀树的应用

  1. 字符串检索。事先将已知的一些字符串(字典)的有关信息存储到 Trie 树里,查找些字符串是否出现过、出现的频率和搜索引擎的热门查询。
  2. 前缀统计。统计一个串所有前缀单词的个数,只需统计从根到叶子路径上单词出现个数,也可以判断一个单词是否为另一个单词的前缀。
  3. 最长公共前缀。Trie 树利用多个字符串的公共前缀来节省存储空间,反之,当把大字符串都存储到一棵 Trie 树上时,可以快速得到某些字符串的公共前缀。对所有字符串都建字典树,两个串的最长公共前缀的长度就是它们所在节点最近公共祖先的长度,于是转变为近公共祖先问题。
  4. 排序。利用字典树进行串排序。例如,给定N个互不相同的仅由一个单词构成的英文名,将它们按字典序从小到大输出。采用数组方式创建字典树,这棵树每个节点的所有子节点都按照其字母大小排序。对字典树进行先序遍历,输出的相应字符串便是按字典序排序的结果。
  5. 作为其他数据结构与算法的辅助结构,例如后缀树、AC 自动机等。

6. 与哈希表的比较

前缀树和哈希表都是用于提高数据检索效率的数据结构,但它们的工作原理不同。

哈希表:通过将数据映射到一个固定大小的表中来实现快速访问

前缀树:通过共享前缀来减少存储空间和加快搜索速度。减少查询时间,最大限度地减少无畏的字符串比较,查询效率比哈希树高。

7. 总结

        前缀树,也被称为字典树、Trie树,是一种用于存储字符串的树形数据结构,也是哈希树的一种变种,特别适合处理具有共同前缀的字符串集合。主要用于统计、排序和存储大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。

  • 46
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值