- 博客(2)
- 收藏
- 关注
原创 基于 double array 实现汉字的trie树索引 与 查询功能 python实现
一、 基本原理。 基本原理:利用字符串集合中字符串的公共前缀来降低时间开销以达到提高效率的目的。 性质:1,根结点不包含任何字符信息;2,如果字符的种数为n(如英文的26个字母),则每个结点的出度为n(这样必然会导致浪费很多空间,这也是trie的缺点,我还没有想到好点的办法避免);3,查找,插入复杂度为O(n),n为字符串长度。 具体请百度之。 二、基于 trie字典的汉字
2012-04-08 21:05:28 2276
转载 大数据集处理策略 Bloom-Filter trie树
大数据量处理是,除标题中提到的策略外,还有: 外排序。要点有:归并方法,置换选择 败者树原理,最优归并树 倒排索引。 快排序、堆排序等的变体版本。 数据库。 A trie 树 一、Trie的示意图 如图所示,该trie树存有abc、d、da、dda四个字符串,如果是字符串会在节点的尾部进行标记。没有后续字符的branch分支指向NULL 二、实例。 tri
2012-04-01 19:50:23 1583
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人