本文将介绍当查询中出现拼写错误时的鲁棒性处理技术。并给出可能的查询结果。
词典的数据结构
第一章我们知道,倒排表包括两个部分。一个是词典,另一个是倒排记录表。我们查询的时候首先要通过索引词典的词,然后再通过词的指针找到倒排表的地址,取出相应的倒排记录表。
前面,我们已经知道了倒排记录表可以通过链表或者可变数组实现。那么词典可以通过哪些数据结构实现呢?我们可以通过hash表实现,hash表的缺点在于,如果hash空间增大,我们需要把已存在的记录重新hash一遍,可扩展性太弱;B树实现,很容易满足前缀搜索的要求&#