《信息检索导论》实验 python 实现汇总

lazyn

已于 2023-11-01 09:47:26 修改

阅读量2.9k

点赞数 11

分类专栏：智能信息检索文章标签： python 算法人工智能信息检索

于 2020-04-29 22:47:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36949278/article/details/105849429

版权

智能信息检索专栏收录该内容

11 篇文章 16 订阅

订阅专栏

《信息检索导论》实验 python 实现汇总

实验一：倒排记录表的合并算法实现
实验二：两个字符串编辑距离的计算方法实现
实验三：可变字节码的编码和解码算法实现
实验四：向量相似度的算法实现
实验五：利用SIMNOMERGE余弦相似度计算文档得分的算法实现
实验六：NB算法的训练及分类过程实现

应用python语言实现了《信息检索导论》部分实验，整理一个汇总的博客为大家指路。书籍封面如下图，大家认准教材，不要弄错。
信息检索导论封面
所编写实验均为老师布置的作业，没有太多理论上的讲解，且各个博客的形式会太过统一和单调，希望各位不要介意。另外可能会有不全的实验，或者和自己需求不一致的情况，也望大家谅解。

实验一：倒排记录表的合并算法实现

布尔检索中需要进行倒排记录表的合并，有多种合并算法。通过实验，使学生掌握搜索系统中重要的倒排记录表的求交集的合并算法。

实验二：两个字符串编辑距离的计算方法实现

通过实验，使学生掌握检索系统中为实现拼写校正，计算两个字符串之间的编辑距离的方法。

采用动态规划算法，编程计算两个字符串之间的编辑距离。P41

实验三：可变字节码的编码和解码算法实现

检索系统中的倒排记录表所占空间巨大，因此索引压缩非常关键，可变字节码VB编码利用整数个字节对间距编码和解码，能够在时间和空间上达到一个非常好的平衡点。通过实验，使学生掌握索引压缩的可变字节码VB的编码和解码算法。

编程实现可变字节码的编码和解码过程。P68

实验四：向量相似度的算法实现

向量空间模型是信息检索中最重要的形式化模型之一，向量相似度是对向量空间模型评分的重要依据。

编程实现向量相似度的基本算法。P78

实验五：利用SIMNOMERGE余弦相似度计算文档得分的算法实现

XML由于文档包含非常复杂的树形结构，属性之间还存在嵌套关系，属性数目也高于参数化搜索和域搜索，因此检索更为复杂。基于向量空间模型的XML搜索中，为更好地提高检索正确率，需要利用SIMNOMERGE余弦相似度计算文档得分。

编程实现利用SIMNOMERGE余弦相似度计算文档得分

实验六：NB算法的训练及分类过程实现

文本分类是信息检索系统的关键技术，多项式NB文本分类算法是有监督的基于概率的学习方法，优势是速度快，精确率很高。

编程实现训练和应用NB分类器的算法。P182

关注

11
点赞
踩
51

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lazyn 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。