信息检索之词典及容错式检索

1、主要内容: 对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术
    ①、支持 词典快速查找的多个数据结构;
    ②、 通配符查询;
    ③、拼写上存在错误的查询, 自动校正技术(针对单个词的独立矫正;针对整个查询串的整体矫正技术);
    ④、查询词 发音相似的查询;
2、词典搜索的数据结构:确定每个查询此项是否在词汇表中 可参见:1、 MySQL索引背后的数据结构及算法原理;2、 从B树、B+树、B*树谈到R 树;3、 深入研究B树索引
    ①、哈希表方式;
    ②、搜索树方式;
            存在某种方法允许内部绩点的子树树目在某个固定区间内变化来实现树的插入删除操作, B树
            B树的特点是将二叉树的多层“压平”到一层而得到树结构,在内存空间不足以存下全部词典而必须要将部分词典常驻磁盘时,这样做非常有效,因为在这种情况下“压平”可以在将词典调入内存时实现后续而知测试的预读取。
3、通配符查询:[k-gram索引]
4、拼写矫正:可参见:
    ①、英文版: How to Write a Spelling Corrector
     ②、中文版: 怎样写一个拼写检查器
    ④、 拼写纠正
5、基于发音的矫正技术[soudex算法]
    基本思路:对每个词项,进行一个语音哈希操作,发音相似的词项都被映射为同一值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值