Trie树应用：统计与匹配

最新推荐文章于 2023-02-03 09:44:47 发布

MoeYang

最新推荐文章于 2023-02-03 09:44:47 发布

阅读量544

点赞数

分类专栏：其他 java 算法文章标签：算法数据存储 Trie树字典树

本文链接：https://blog.csdn.net/TongWaccs/article/details/38462467

版权

java 同时被 3 个专栏收录

33 篇文章 0 订阅

订阅专栏

算法

21 篇文章 0 订阅

订阅专栏

其他

8 篇文章 0 订阅

订阅专栏

Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。

Trie树的基本特征：

1)根节点不包含字符，除根节点外每一个节点都只包含一个字符

2)从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串

3)每个节点的所有子节点包含的字符都不相同

4）按照（根节点）→（t）→（to）的顺序搜索。如果我们要找的单词是“too”，但“to”的子节点为null，则判断要查找的字符串不存在

那假如我们需要统计的是全英文的集合，根节点的子节点就可以是26个英文字母

Trie树的应用：

1)搜索提示：如当输入一个网址，可以自动搜索出可能的选择。当没有完全匹配的搜索结果，可以返回前缀最相似的可能。如输入“te”，可以联想出"tea,ten,ted。。。"

2）字符串检索

I:如某词典存在1W个敏感词，这些敏感词都不允许出现在页面上。现有一段用户输入文本，要判断其中是否存在敏感词，如有则进行屏蔽。则若用户输入“abcdefg”且词典中记录了“cde”，则会被替换为“ab***ef”

II:如有1000W字符串，其中存在重复，要求去重

3）排序：如给出一系列单词，要求按照字典顺序输出。那只需将所有单词输入Trie树，并深度遍历即可。（注，这里必须在每个作为单词结尾出现的节点上做标记。比如存在abc,abcd,abcdef三个单词，那我们需在c,d,f所在的节点都做好标记，证明此处是某个单词的结尾）

Trie树的实现：

public class Trie{
    private int SIZE=26;
    private TrieNode root;//字典树的根
 
    Trie(){//初始化字典树
        root=new TrieNode();
    }
 
    private class TrieNode{//字典树节点
        private int num;//有多少单词通过这个节点,即节点字符出现的次数
        private TrieNode[] son;//所有的儿子节点
        private boolean isEnd;//是不是最后一个节点
        private char val;//节点的值
     
        TrieNode(){
            num=1;
            son=newTrieNode[SIZE];
            isEnd=false;
        }
    }
 
    //建立字典树
    public void insert(Stringstr){//在字典树中插入一个单词
        if(str==null||str.length()==0){
            return;
        }
        TrieNode node=root;
        char[] letters=str.toCharArray();
        for(inti=0,len=str.length();i

MoeYang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Trie树应用：统计与匹配

Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。
复制链接

扫一扫