算法（五）字典树算法

最新推荐文章于 2024-08-08 23:35:34 发布

生信了（公众号同名）

最新推荐文章于 2024-08-08 23:35:34 发布

阅读量4.6k

点赞数 2

分类专栏： # 序列算法文章标签： trie prefix search match

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/biocity/article/details/83792890

版权

序列算法专栏收录该内容

32 篇文章 16 订阅

订阅专栏

关键词：trie; prefix; search; match;

字典树，又称单词查找树，是一个典型的一对多的字符串匹配算法。“一”指的是一个模式串，“多”指的是多个模板串。字典树经常被用来统计、排序和保存大量的字符串。它利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较。

那它一般应用在什么地方呢？我们举一个例子说明：

假设有一个单词表，里面有10w个单词。如果别人给你2000个单词，看这2000个单词是否在单词表中。该如何呢？当然可以用hash来实现啦！

但是，如果要看这2000个单词是否是单词表中单词的前缀（比如，”ab”是”abcd”的前缀）该怎么办呢？这个时候用hash就不适合了！而这种情况下用字典树算法就非常适合！

在介绍字典树算法之前，我们先看看其他的解决办法：
（假设单词表中10w个单词在一个10w.temp.txt文件中，每一行是一个单词；
要查询的2000个单词在另一个文件2k.word.txt文件中，每一行一个单词。
两个文件长得差不多，大概是这个样子：
在这里插入图片描述

grep版本
注意grep使用了“^”这个符号，表示从头匹配。这是一种正则表达式的用法。
在这里插入图片描述

C语言版本（brute force）
将每一个要查询的单词与单词表中的单词进行比对，看是否是前缀。这段代码表现还不错，比grep快：
在这里插入图片描述
C（brute force）版本的结果与上面grep版本的结果是一致的：

具体代码如下：

在这里插入图片描述
Python版本（brute force）
Python（brute force）还是很慢！

具体代码如下：

C（字典树）
一般来说，树这种数据结构会包含以下操作：创建/初始化/新建（create/init/new）、插入（insert）、删除（delete）以及遍历（traversal）等。用于查询的树还会包含查询（find）操作。

接下来我们就在字典树上一一实现这些操作：
声明部分：
在这里插入图片描述
新建节点：

插入单词到字典树中：

遍历（打印单词）：

删除字典树：

查找：在字典树中查找单词（查询的单词为前缀）

完整的代码如下：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
其耗时：

由于字典树不是按照“查询单词”的顺序输出结果的，所以其原始输出结果与上面grep版本的结果不一致。但是，将两者的结果排序后再比较，结果就是完全一致的了。

在这里插入图片描述
至此，我们可以看出，字典树还是加快了查询单词（作为前缀）的效率，其耗时最短！

如果有任何问题，欢迎交流！

（公众号：生信了）
在这里插入图片描述

生信了（公众号同名）

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

生信了（公众号同名）

博客等级

码龄6年

114
原创

700
点赞

3851
收藏

983
粉丝

关注

私信

热门文章

分类专栏

最新评论

cython初体验
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
R语言模拟疫情传播-gganimate包
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
R-概率统计与模拟（四）拒绝抽样
CSDN-Ada助手: R语言中的数据分析库有哪些？
R-概率统计与模拟（二）
CSDN-Ada助手: R语言中的数据分析库有哪些？
序列比对（26）精准匹配之KMP算法、Trie树以及AC自动机
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。