《信息检索导论》第七章总结

最新推荐文章于 2022-03-05 17:08:13 发布

iteye_17686

最新推荐文章于 2022-03-05 17:08:13 发布

阅读量500

点赞数

一、打分排序的特性

其实对于打分排序来说，我们最终只需要确定文档的相对顺序即可，因此我们可以简化打分的算法，只需要保持相对顺序不变即可；

二、快速排序及打分方法

我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度，然后需要取出打分最高的前K篇文档，这样做的复杂度是很高的；其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多（不需要计算所有文档的得分），则我们通常会采用后一种算法；

通用方法：预先找到文档子集A（远小于初始文档集），包含了大多数的候选文档，并在A中计算得分最高的前K篇文档；以下方法都是基于这个规则计算的；

1.索引去除技术

(1)只考虑term的idf超过阈值的posting；因为低idf的term通常是stop words，posting非常长，所以不计算这些将使复杂度大大降低，因此不必考虑；

这里会出现超过阈值的doc没超过K篇，则需要使用层次型索引解决；

层次型索引：将倒排记录表进行分层，比如tf超过20的在第一层，tf超过10的在第二层，当需要查找前K篇文档时，只需要先在第一层查找，如果没取够K篇，则到第二层查找；

因此层次型索引是解决可能返回文档少于K篇的方法；

(2)只考虑包含多个查询词项的文档；

2.胜利表法

胜利表（champion list）：对于词项t，预先取出posting的tf值最高的r篇文档，此序列称为胜利表；

给定一个查询Q，我们只需要求Q中的每个词项的胜利表的并集，此并集就是通用方法所说的文档子集A，并在A中计算余弦相似度；

3.静态得分排序法Static quality Score

每篇文档都有一个与查询无关的静态得分g(d)，倒排索引中的posting按照g(d)进行降序排列；

而最后的得分是Score(q,d)=g(d)+v(q)v(d);

在第二十一章所说的PageRank是一个静态质量得分，是一个基于网页链接分析的打分；

4.分层搜索排序

对于词项t，维持两个表：高端表（tf值最高的m篇文档）和低端表（其余文档），都以g(d)排序；

取出打分最高的K篇文档方法：先计算高端表的得分，如果已经在高端表已经能够取出K篇得分最高的文档，则结束；否则，其余的在低端表中取；

5.cluster pruning

leader：在N篇文档中找到(根号N)篇文档作为leader；

follower：每个leader都有(根号N)个follower，表示与leader距离较近；

查询方法：给定查询Q，先与每个leader计算余弦相似度，找到最近的leader，文档子集A为此leader+leader对应的follower；

三、其他考虑因素

1.查询词项邻近性

我们希望查询词在文档中都靠的很近，这样才能够使得文档和查询更相关；

最小窗口大小：the quality of mercy is not stained ，如果查询为：stained quality；则最小窗口大小为6（quality of mercy is notstrained）；

软合取：文档不必包含全部的查询词项，只需要包含大部分的查询词项即可；

因此有可能需要将邻近性也加入权重中；

四、搜索引擎组成

indexer用于生成各式各样的索引，比如参数化索引、域索引、K-gram索引、分层索引；

向量空间模型和布尔检索模型有所不同，布尔模型只考虑词项在文档中是否存在，而不考虑出现了几次，也没有权重;

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

iteye_17686 CSDN认证博客专家 CSDN认证企业博客

码龄6年

0: 原创

-: 周排名

139万+: 总排名

335万+: 访问

: 等级

1万+: 积分

309: 粉丝

430: 获赞

87: 评论

2310: 收藏

私信

关注

热门文章

最新评论

负数在计算机中的表示
做而论道_CS: 所谓的补码，就是这么来的。补码，也就是正常的二进制数字。补码，与符号位原码反码，都没有半点关系。所以，在计算机中：只有二进制数。　根本就没有什么：符号位原码反码补码！进位，应该是小学的知识点。但是，计算机专家们，都是从小就迷上了计算机。该学的知识，都稀里糊涂的：　加法中进位，是怎么来的？　舍弃进位，结果又应该如何计算？　正数，为什么能当负数呢？　加法，怎么就成了减法？　。。。这些简单的事，计算机专家们，可以说是一窍不通！没有办法，只好编造一套瞎话：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模符号位也参加运算 ... 一个简单的算术题，居然要用这么多垃圾来解释！老外的算术水平，由此可见一斑。计算机专家写的这些，明显就是【拿个鞋拔子当做玉如意】。假货，不仅仅在古董行业才有啊！我们的老师，数学水平，当然不会这么差。但是由于对老外盲目的崇拜迷信，也就只会跟风了。于是，就在大学课堂上，讲解起小学的知识，呵呵也不知道，多年来，有多少学生因此挂科。而且，还把这些没有任何理论依据的谎言，列为考研的内容！真是毁人不倦坑人不浅！
负数在计算机中的表示
做而论道_CS: 计算机的字长，是固定的。八位机，只会做：　八位＋八位＝一个进位、八位的和。八位二进制的范围是：0000 0000 ~ 1111 1111。与其等效的十进制是：0 ~ 255。最大值 255，就可以当做 “负一” 来使用。如　27－1 = 26，八位机将如下计算：　　　0001 1011　　(这就是 27) 　　＋1111 1111　　(这就是－1) －－－－－－－－－－ (进 1 ) 0001 1010 舍弃进位，只取八位的和，就是 26。看到了吗：　当你舍弃了进位，　　你就用加法，实现了减法运算。－－－－－－－－－－－－－－－－－－－ 99、255，都能当－1！这是为什么呢？　绝对不是 “符号位原码反码补码取反加一 ... ” 　而是你舍弃了进位。也可以说，是在计算时【减去了进位】！那就把【减进位】算进去吧。两位十进制的进位，是：10^2 = 100。　加上 99，实际上是加：99－100 = －1。　加上 98，实际上是加：98－100 = －2。　。。。八位二进制的进位，是：2^8 = 256。　加 255，也就是加上：255－256 = －1。　加 254，也就是加上：254－256 = －2。　。。。这些正数，与其负数的关系式，你一定能看出来：　正数 = 256 ＋负数。这些正数，就被计算机专家，称为 “补码” 了。本来，这是一个简单的算术题。计算机专家，偷了梁换了柱，就 “发明了补码”！
负数在计算机中的表示
做而论道_CS: 虽然，计算机使用二进制数。但是，二进制数，也是数。二进制数，和十进制数，是雷同的。二进制数，并非是什么；　机器数原码反码补码！符号位，更是根本就不存在的。所谓的 “补码”，并非是二进制才有。而在任何进制中，都是存在的。 “补码” 的来源，只是出自一个小学的算术题而已。并非是计算机专家的发明。－－－－－－－－－－－－－－－－－－－你看两位十进制数：0 ~ 99。可以有：　27 + 99 = (一百) 26 　27 － 1 = 26 如果你忽略进位，这两种算法，功能就是相同的。即，舍弃了进位：　正数，就能当负数使用！　加法，也就可以实现减法运算！如果在计算机中舍弃进位：　就可以省掉减法器，简化硬件！　只配置一个加法器，就能走遍天下！＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝只要【忽略了进位】！　你就能懂得 “补码” 的来源与意义。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
Codejock Xtreme Toolkit 使用例子
louis_liux: 您好，这个 xtremetoolkitPro 这个怎么样能编译出来 DS.lib得库啊？在VS里面设置
巧替换windows 7中的"宋体 simsun.ttc"
Versahein: 您好极限雅黑3.0修改的等宽雅黑替换宋体那个链接打不开了诶可以麻烦分享一下文件的链接吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。