在百度或者淘宝搜索时,每次输入字符串都会出现搜索建议,例如输入"北京",在搜索输入框下面会以北京为前缀,展示"北京爱情故事",“北京公交”,"北京医院"等搜索词,实现这类技术所采用的数据结构是什么?
Trie树,又称为单词查找树,字典树,是一种树形结构,是一种哈希树的变种,是一种快速检索的多叉树结构,单行应用就是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.
他的优点是:最大限度的减少无谓字符串的比较,查询效率比哈希表高.
Trie树的核心思想是:空间换时间,利用字符串的公共前缀降低查询时间的开销以达到提高效率的目的.
对于搜索引擎,一般会保留一个单词查找树前N个字(全球或最近热门使用的),对于每个用户,保持Trie树最近前N个字为该用户使用的结果.
用户点击任何搜索结果后,Trie树可以非常迅速并一步获取完整的部分/模糊查询,然后预取数据,再用一个Web应用程序发送一个较小的组结果到浏览器.