双数组trie树的基本构造及简单优化[转]键树相关

最新推荐文章于 2023-07-16 11:13:28 发布

大四喜2017

最新推荐文章于 2023-07-16 11:13:28 发布

阅读量1.8k

点赞数

分类专栏： [数据结构] 文章标签：优化数据结构算法

本文链接：https://blog.csdn.net/krens/article/details/2956355

版权

本文介绍了双数组Trie树的基本构造和优化方法。通过实例展示了如何构建这种数据结构，以及在插入、删除操作中可能遇到的问题。讨论了插入优化策略，如仅扫描空状态序列，以及删除优化策略，包括处理无用结点和数组长度压缩，以提高性能和空间利用率。

摘要由CSDN通过智能技术生成

作者：Sunny from Hour41 (www.hour41.com )

一、基本构造

Trie树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据检索组织结构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态。在词典中这此状态包括＂词前缀＂，＂已成词＂等。

双数组Trie（Double-Array Trie）是trie树的一个简单而有效的实现，由两个整数数组构成，一个是base[]，另一个是check[]。设数组下标为i ,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值，表示该状态为词语。Check[i]表示该状态的前一状态，t=base[i]+a, check[t]=i 。

下面举例(源自<<双数组Trie（Double-Array Trie）的数据结构与具体实现>>)来说明用双数组Trie（Double-Array Trie）构造分词算法词典的过程。假定词表中只有“啊，阿根廷，阿胶，阿拉伯，阿拉伯人，埃及”这几个词，用Trie树可以表示为：

我们首先对词表中所有出现的10个汉字进行编码：啊-1，阿-2，唉-3，根-4，胶-5，拉-6，及-7，廷-8，伯-9，人-10。。对于每一个汉字，需要确定一个base值，使得对于所有以该汉字开头的词，在双数组中都能放下。例如，现在要确定“阿”字的base值，假设以“阿”开头的词的第二个字序列码依次为a1，a2，a3……an，我们必须找到一个值i，使得base[i+a1]，check[i+a1]，base[i+a2]，check[i+a2]……base[i+an]，check[i+an]均为0。一旦找到了这个i，“阿”的base值就确定为i。用这种方法构建双数组Trie（Double-Array Trie），经过四次遍历，将所有的词语放入双数组中，然后还要遍历一遍词表，修改base值。因为我们用负的base值表示该位置为词语。如果状态i对应某一个词，而且Base[i]=0，那么令Base[i]=（-1）*i，如果Base[i]的值不是0，那么令Base[i]=（-1）*Base[i]。得到双数组如下：

下标

最低0.47元/天解锁文章

大四喜2017

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
双数组trie树的基本构造及简单优化[转]键树相关

作者：Sunny from Hour41 (www.hour41.com )一、基本构造Trie树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据检索组织结构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态。在词典中这此状态包括＂词前缀＂，＂已成词＂等。双数组Trie（Double-Arr
复制链接

扫一扫

专栏目录