多数游戏中,都会提供关键词查找的功能,即通过输入一个子串,最终返回所有包含该子串的记录;
具体的应用场景包括:陌生人查找, 公会查找,消息记录查找等等。
对于这类需求,查找的数据范围往往会很广,如果是采用遍历字符串匹配的方式查询,时间开销会非常大。
而如果存储方面使用的是类似于mysql这种支持like子句模糊搜索的数据库,实现起来简单,但具体的计算压力也全都交给了DB。
那么项目中如果没有使用支持模糊查找的数据库,怎么高效实现类似的需求呢?
-
一个备选的方案
提到大量字符串集合的匹配,最容易想到的解决方案是字典树(trie树), 将每一个字符作为树的节点, 而树的高度则为字符串长度的上限,整体设计思路比较直观。
但是trie树的缺点也很明显:
- 树的每一层都可能出现同一个字符的节点,在每条记录中的字符均匀随机的情况下,内存开销太大。
- 如果想减少内存消耗,则需要进行节点压缩,但是插入删除记录的时间开销会增大,代码实现也将变得复杂。
- 如果采用的是最朴素的trie树,只能快速查找出前缀匹配或是后缀匹配的记录,如果需要快速查找关键字出现在中间的记录,则需要针对性的建立索引,进一步增加内存消耗。
总结来说,trie树是一个简单且查找效率很高的方案,但是内存消耗不可控,如果针对内存进行优化,代码实现会变得复杂。
那么还有没有简单高效同时内存开销更小的解决方案呢?
-
可优化的方向
我们可以将trie树理解为一张庞大的索引表,正因为它的庞大,所以将查找效率做到了极致(接近O(1))。
空间时间比例不均衡,造就了算法可优化的空间,举个栗子: