数据结构重读 – 键树、字典树中文

最新推荐文章于 2023-02-13 09:36:25 发布

lionzl

最新推荐文章于 2023-02-13 09:36:25 发布

阅读量883

点赞数

分类专栏： Algorithm

Algorithm 专栏收录该内容

102 篇文章 1 订阅

订阅专栏

这几天被汉字trie树小折腾了一下。

开始的时候想直接将单字节作为字典树的节点建树，虽然各个树的节点可能只是多字节字符的一部分，但是基本功能也能够支持。后来发现似乎有些问题，比如在做前向最大匹配分词的时候，对于未登录词无法确定当前字符是单字节还是多字节，如果通过编码规则进行判定的话倒也可以，但是跟建树过程南辕北辙。

然后想到了utf16字符编码对所有字符统一采用16位定长处理，这样的话只要对待处理字符串每两字节进行一次截取就能得到完整字符，当然树的节点也是这样有意义的完整字符。可是问题依然存在，fgets() 这种函数肯定用不了，因为utf16中充斥这各种值为0和a的字节，对于fgets()来说a就是行尾。linux中对宽字节字符处理函数经常莫名其妙罢工，例如fgetws()读取文件的时候总是直接返回NULL，各种不给力。。。

最后还是回到utf8，通过对utf8编码方式分析，utf8是一种变长编码方式，通过首字节即可判断出当前字符字节数。这样在建树时候就可以以字符作为节点，无论是单字节字符（ASCII）还是三字节字符（绝大多数汉字）都可以存入trie树中，在对字符串分析时同样可以轻松确定字符长度

数据结构重读 – 键树、字典树

1 Reply

键树，又称数字查找树(Digital Search Trees)是一棵度>=2的树，每个结点只含有组成关键字的符号。

键树有两种存储结构：

1、树的孩子-兄弟链表来表示键树。

每个Node有三个域：first指向第一棵子树的根指针；next指向右兄弟；info（可选的）记录附加数据。如下图：

查找过程是，从根结点出发，顺着first查找，如果相等，继续下一个first。否则沿着next查找。直到到了空指针为止。此时若仍未完成key的匹配，查找不成功。

2、以树的多重链表表示键树(Trie树)。

每个结点中含有d个指针域，此时又称Trie树。

Trie树中有两种结点：
(1)分支结点：含有d个指针域，整数n记录非空指针域的个数(可选)。
(2)叶子结点：含有关键字域(完整的关键字、可选)、附加数据域名(可选)。

实际实现的时候，一般都偷懒，只包含那d个指针域。

如下图：

在标准Trie树的基础上，可以压缩：若从键树中某个结点到叶子结点的路径上每个结点都只有一个孩子，则可将该路径上的所有结点压缩成一个叶子结点。如下图所示：

一个标准Trie树的Java实现如下：