《信息检索导论》第三章总结

最新推荐文章于 2022-01-28 17:01:51 发布

iteye_17686

最新推荐文章于 2022-01-28 17:01:51 发布

阅读量427

点赞数

文章标签：数据结构与算法

一、Hash Table和Search Tree

实现dictionary的方法主要有哈希表和搜索树（二叉树、B树、AVL树）；

实现哈希表的dictionary的优点：

（1）查询效率O（1）；

缺点：

（1）哈希冲突。

（2）不支持模糊查询。

（3）哈希函数需要不断变化以适应需求。

实现搜索树的dictionary的优点：

（1）支持模糊查询。

缺点：

（1）查询效率相对较慢。

（2）树要保持平衡。

二、单个通配符查询

1.尾通配符查询

比如abc*，即通配符出现在尾部的查询就是尾通配符查询，这种查询使用搜索树可以完成，方法就是以a，b，c的顺序遍历树。如下图所示：

如果要查询ab*，则

（1）比较根节点：因为a在a-m中，所以往左走。

（2）因为ab在a-hu之间，因此往左走。

（3）剩下的子节点就是满足要求的结果，遍历并取得他们的posting即可。

2.头通配符查询

如果要进行头通配符查询，则需要引入反向B tree的概念。反向B tree是把B tree查询的顺序反过来。比如要查询*cba，则查询顺序为a,b,c，举例：

查询*ba的步骤：

（1）比较根节点，因为a在a-m之间，则往左走。

（2）因为ba在aa-uh之间，因此往左走。

因此下面的子节点就是满足条件的结果。

3.一般通配符查询

比如abc*cba，只需要分解成abc*和*cba，并分别运用1，2的知识即可。但要注意查询出的结果必须在abc*cba中过滤一遍。因为比如abcba满足abc*和*cba,但是却不满足abc*cba；

三、专用于通配符查询的索引结构

1.permuterm index

方法：$表示一个词的末尾（正则），即如果ab，则表示成ab$，并进行轮排，形成ab$,$ab,b$a,并指向ab；

在处理单个通配符查询时，如果要查*b,则先添上$，然后旋转，使得*在词的尾端，即b$*,并在搜索树中查找。发现b$a满足要求，则ab满足要求。

在处理多个通配符查询时，如果要查询a*b*,则先添加$即a*b*$,然后旋转为$a*b*,先查询$a*,取得的结果再通过a*b*过滤即可。

缺点：词典会变得很大。

2.K-GRAM index

K-GRAM的定义：k个连续的字母的组合，在第二十章中会讲到k-shingle，意思是k个连续单词的组合。

比如：hello的3-gram是：hel,ell,llo；

索引结构：

k-gram index的dictionary是所有词的k-gram的集合。

k-gram index的posting是匹配k-gram的单词序列。

索引规则：

在建索引之前必须在单词首尾添加$；再进行k-gram indexing；

查询方法：

举例：查找com*;利用3-gram 索引

(0)添加$,即$com*$; 如果是2-gram，则是$c , co , om

(1)先通过3-gram index进行查找匹配的单词；

(2)因为3-gram index查找出的结果并不精确（比如coordcom，匹配$co,com，却不能匹配$com*），因此需要在$com*进行过滤，才能得出结果。

总结：k-gram索引的速度非常慢；因为需要先对k-gram索引取得单词(原本的单层索引变成了两层索引)，再进行一次过滤，才能进入普通的倒排索引中查找docID；

而轮排索引不需要后过滤，但是空间消耗很大；

四、拼音校验方法

主要原则：先找邻近度大的词，如果邻近度相同，则找常用词；

1.编辑距离

通过动态规划的方法，把两个单词看成二维矩阵，进行计算。

比如PARIS 和 ALICE

注意：编辑距离有个缺点，就是如果要让查询和每个term计算编辑距离，则效率太差，因为在倒排索引的dictionary中有几千万个term；

2.利用k-gram计算Jaccard系数

Jaccard系数：给定集合A和B，J=(AB)/(A+B-AB);

假设A和B是两个单词，长度为m和n，因此A和B分别有m-1个和n-1个k-gram;

给定一个查询Q，计算出Q所对应的k-gram后，即可对k-gram索引遍历，对每个单词和Q计算Jaccard系数，AB可以理解为有多少个k-gram重叠，而A+B-AB可以理解为合并后一共有多少k-gram（通过A和B的k-gram长度和减去AB的k-gram overlap的数量），并取得Jaccard系数高出阈值的单词。

总结：可以先进行k-gram索引，然后再进行编辑距离的计算。

当然以上只是适用于单独单词的拼写错误，如果类似于I are happy.这种查询，就检测不出错误，因为单独的单词都是对的。

检测方法：当进行查询后返回的结果很少，则对查询词组有所怀疑，则会对每个单词进行替换，使得找出返回结果多的词组。

3.语音校验

通过把发音类似的单词放在同一个组（通过语音哈希函数），称为soundex算法。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《信息检索导论》第三章总结

一、Hash Table和Search Tree实现dictionary的方法主要有哈希表和搜索树（二叉树、B树、AVL树）；实现哈希表的dictionary的优点：（1）查询效率O（1）；缺点：（1）哈希冲突。（2）不支持模糊查询。（3）哈希函数需要不断变化以适应需求。实现搜索树的dictionary的优点：（1）支持模糊查询。缺点：（1...
复制链接

扫一扫

iteye_17686 CSDN认证博客专家 CSDN认证企业博客

码龄6年

0: 原创

-: 周排名

137万+: 总排名

329万+: 访问

: 等级

1万+: 积分

308: 粉丝

427: 获赞

88: 评论

2302: 收藏

私信

关注

热门文章

最新评论

负数在计算机中的表示
做而论道_CS: 所谓的补码，就是这么来的。补码，也就是正常的二进制数字。补码，与符号位原码反码，都没有半点关系。所以，在计算机中：只有二进制数。　根本就没有什么：符号位原码反码补码！进位，应该是小学的知识点。但是，计算机专家们，都是从小就迷上了计算机。该学的知识，都稀里糊涂的：　加法中进位，是怎么来的？　舍弃进位，结果又应该如何计算？　正数，为什么能当负数呢？　加法，怎么就成了减法？　。。。这些简单的事，计算机专家们，可以说是一窍不通！没有办法，只好编造一套瞎话：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模符号位也参加运算 ... 一个简单的算术题，居然要用这么多垃圾来解释！老外的算术水平，由此可见一斑。计算机专家写的这些，明显就是【拿个鞋拔子当做玉如意】。假货，不仅仅在古董行业才有啊！我们的老师，数学水平，当然不会这么差。但是由于对老外盲目的崇拜迷信，也就只会跟风了。于是，就在大学课堂上，讲解起小学的知识，呵呵也不知道，多年来，有多少学生因此挂科。而且，还把这些没有任何理论依据的谎言，列为考研的内容！真是毁人不倦坑人不浅！
负数在计算机中的表示
做而论道_CS: 计算机的字长，是固定的。八位机，只会做：　八位＋八位＝一个进位、八位的和。八位二进制的范围是：0000 0000 ~ 1111 1111。与其等效的十进制是：0 ~ 255。最大值 255，就可以当做 “负一” 来使用。如　27－1 = 26，八位机将如下计算：　　　0001 1011　　(这就是 27) 　　＋1111 1111　　(这就是－1) －－－－－－－－－－ (进 1 ) 0001 1010 舍弃进位，只取八位的和，就是 26。看到了吗：　当你舍弃了进位，　　你就用加法，实现了减法运算。－－－－－－－－－－－－－－－－－－－ 99、255，都能当－1！这是为什么呢？　绝对不是 “符号位原码反码补码取反加一 ... ” 　而是你舍弃了进位。也可以说，是在计算时【减去了进位】！那就把【减进位】算进去吧。两位十进制的进位，是：10^2 = 100。　加上 99，实际上是加：99－100 = －1。　加上 98，实际上是加：98－100 = －2。　。。。八位二进制的进位，是：2^8 = 256。　加 255，也就是加上：255－256 = －1。　加 254，也就是加上：254－256 = －2。　。。。这些正数，与其负数的关系式，你一定能看出来：　正数 = 256 ＋负数。这些正数，就被计算机专家，称为 “补码” 了。本来，这是一个简单的算术题。计算机专家，偷了梁换了柱，就 “发明了补码”！
负数在计算机中的表示
做而论道_CS: 虽然，计算机使用二进制数。但是，二进制数，也是数。二进制数，和十进制数，是雷同的。二进制数，并非是什么；　机器数原码反码补码！符号位，更是根本就不存在的。所谓的 “补码”，并非是二进制才有。而在任何进制中，都是存在的。 “补码” 的来源，只是出自一个小学的算术题而已。并非是计算机专家的发明。－－－－－－－－－－－－－－－－－－－你看两位十进制数：0 ~ 99。可以有：　27 + 99 = (一百) 26 　27 － 1 = 26 如果你忽略进位，这两种算法，功能就是相同的。即，舍弃了进位：　正数，就能当负数使用！　加法，也就可以实现减法运算！如果在计算机中舍弃进位：　就可以省掉减法器，简化硬件！　只配置一个加法器，就能走遍天下！＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝只要【忽略了进位】！　你就能懂得 “补码” 的来源与意义。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
Codejock Xtreme Toolkit 使用例子
louis_liux: 您好，这个 xtremetoolkitPro 这个怎么样能编译出来 DS.lib得库啊？在VS里面设置
巧替换windows 7中的"宋体 simsun.ttc"
Versahein: 您好极限雅黑3.0修改的等宽雅黑替换宋体那个链接打不开了诶可以麻烦分享一下文件的链接吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。