AcWing 835 Trie字符串统计

题目描述:

维护一个字符串集合,支持两种操作:

  1. “I x”向集合中插入一个字符串x;
  2. “Q x”询问一个字符串在集合中出现了多少次。

共有N个操作,输入的字符串总长度不超过 10^5,字符串仅包含小写英文字母。

输入格式

第一行包含整数N,表示操作数。

接下来N行,每行包含一个操作指令,指令为”I x”或”Q x”中的一种。

输出格式

对于每个询问指令”Q x”,都要输出一个整数作为结果,表示x在集合中出现的次数。

每个结果占一行。

数据范围

1≤N≤2∗10^4

输入样例:

5
I abc
Q abc
Q ab
I ab
Q ab

输出样例:

1
0
1

分析:

 本题考察字典树Trie,又称单词查找树,百科的定义是:Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

之前详细写过Trie的构造和查询见AcWing 142 前缀统计,应用见AcWing 143 最大异或对。下面简单的描述下本题Trie的插入和查询操作。

我们给字典树定义一个根节点,编号为0,定义一个数组son[maxn][26],son[i][j]表示第i个节点的一个孩子节点是j。比如插入abc,插入a的时候将a作为0号节点的孩子,a编号为1,然后插入b作为a的孩子,编号为2,插入c作为b的孩子,编号为3,此时字典树中存在了一个以c结尾的单词,用cnt数组存储单词的末尾位置,cnt[3]++。表示编号为3的节点(c)是一个单词的结尾。再插入ab,发现0以及有a这个孩子了,遂深入到a,发现a有b这个孩子,遂不用插入,只用在b上做个单词结尾的标记即可。

至于查询操作同样简单,同样是从根节点逐步找孩子节点,如果在某个位置失配,即son[p][u]为0,说明p节点没有孩子u,比如查询abd,查到b节点后发现b没有孩子d,遂未找到abd这个单词。

#include <iostream>
using namespace std;
const int maxn = 100005;
int son[maxn][26],cnt[maxn],idx = 0;
void insert(char *s){
    int p = 0;
    for(int i = 0;s[i];i++){
        int u = s[i] - 'a';
        if(!son[p][u])  son[p][u] = ++idx;
        p = son[p][u];
    }
    cnt[p]++;
}
int search(char *s){
    int p = 0;
    for(int i = 0;s[i];i++){
        int u = s[i] - 'a';
        if(!son[p][u])  return 0;
        p = son[p][u];
    }
    return cnt[p];
}
int main(){
    int T;
    cin>>T;
    char op,s[20005];
    while(T--){
        cin>>op>>s;
        if(op == 'I')   insert(s);
        else    cout<<search(s)<<endl;
    }
}

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Trie树词频统计可以通过遍历整个Trie树来获取每个单词的出现次数,然后可以将这些出现次数存储在一个哈希表。接着,可以使用排序算法(如快速排序、归并排序等)对这些出现次数进行排序,以获得单词的频率排名。 以下是一个Python实现的示例代码: ```python class TrieNode: def __init__(self): self.children = {} self.freq = 0 class Trie: def __init__(self): self.root = TrieNode() def insert(self, word): node = self.root for ch in word: if ch not in node.children: node.children[ch] = TrieNode() node = node.children[ch] node.freq += 1 def dfs(self, node, word, freq_dict): if node.freq > 0: if word in freq_dict: freq_dict[word] += node.freq else: freq_dict[word] = node.freq for ch in node.children: self.dfs(node.children[ch], word + ch, freq_dict) def get_freq_dict(self): freq_dict = {} self.dfs(self.root, '', freq_dict) return freq_dict def sort_by_freq(words): trie = Trie() for word in words: trie.insert(word) freq_dict = trie.get_freq_dict() sorted_words = sorted(words, key=lambda x: freq_dict[x], reverse=True) return sorted_words ``` 在这个实现,首先定义了一个Trie树,其节点包含一个字典(用于存储子节点)和一个计数器(用于记录单词出现次数)。然后,将所有单词插入Trie。接着,使用深度优先搜索(DFS)遍历整个Trie树,以获取每个单词的出现次数,并将其存储在一个字典。最后,使用Python内置的sorted函数对单词进行排序,排序方式为按照单词出现次数从大到小排序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值