Trie树应用:统计与匹配

21 篇文章 0 订阅
8 篇文章 0 订阅

Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

Trie树的基本特征:

1)根节点不包含字符,除根节点外每一个节点都只包含一个字符

2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串

3)每个节点的所有子节点包含的字符都不相同

4)按照(根节点)→(t)→(to)的顺序搜索。如果我们要找的单词是“too”,但“to”的子节点为null,则判断要查找的字符串不存在

那假如我们需要统计的是全英文的集合,根节点的子节点就可以是26个英文字母


Trie树的应用:

1)搜索提示:如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。如输入“te”,可以联想出"tea,ten,ted。。。"

2)字符串检索

      I:如某词典存在1W个敏感词,这些敏感词都不允许出现在页面上。现有一段用户输 入文本,要判断其中是否存在敏感词,如有则进行屏蔽。则若用户输入“abcdefg”且词典中记录了“cde”,则会被替换为“ab***ef”

      II:如有1000W字符串,其中存在重复,要求去重

3)排序:如给出一系列单词,要求按照字典顺序输出。那只需将所有单词输入Trie树,并深度遍历即可。(注,这里必须在每个作为单词结尾出现的节点上做标记。比如存在abc,abcd,abcdef三个单词,那我们需在c,d,f所在的节点都做好标记,证明此处是某个单词的结尾)


Trie树的实现:

public class Trie{
    private int SIZE=26;
    private TrieNode root;//字典树的根
 
    Trie(){//初始化字典树
        root=new TrieNode();
    }
 
    private class TrieNode{//字典树节点
        private int num;//有多少单词通过这个节点,即节点字符出现的次数
        private TrieNode[] son;//所有的儿子节点
        private boolean isEnd;//是不是最后一个节点
        private char val;//节点的值
     
        TrieNode(){
            num=1;
            son=newTrieNode[SIZE];
            isEnd=false;
        }
    }
 
    //建立字典树
    public void insert(Stringstr){//在字典树中插入一个单词
        if(str==null||str.length()==0){
            return;
        }
        TrieNode node=root;
        char[] letters=str.toCharArray();
        for(inti=0,len=str.length();i
   
   










  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值