1、主要内容:
对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术
①、支持
词典快速查找的多个数据结构;
②、
通配符查询;
③、拼写上存在错误的查询,
自动校正技术(针对单个词的独立矫正;针对整个查询串的整体矫正技术);
④、查询词
发音相似的查询;
①、哈希表方式;
②、搜索树方式;
存在某种方法允许内部绩点的子树树目在某个固定区间内变化来实现树的插入删除操作,
B树:
B树的特点是将二叉树的多层“压平”到一层而得到树结构,在内存空间不足以存下全部词典而必须要将部分词典常驻磁盘时,这样做非常有效,因为在这种情况下“压平”可以在将词典调入内存时实现后续而知测试的预读取。
3、通配符查询:[k-gram索引]
4、拼写矫正:可参见:
④、
拼写纠正
5、基于发音的矫正技术[soudex算法]
基本思路:对每个词项,进行一个语音哈希操作,发音相似的词项都被映射为同一值。