![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
信息检索
文章平均质量分 92
Alex_SCY
普通大学生记录计算机学习之路,小白的进阶之路。学习过程仅供参考,欢迎交流。
展开
-
【信息检索】链接分析
预先设定一些程序参数:根据题目中给定的图创建邻接矩阵:对于此题,邻接矩阵如下所示:linkMatrix[i][j]=1说明有一条从节点i指向节点j的有向边。然后开始计算转移概率矩阵:一共三步:进行幂迭代法:初始化概率分布向量:然后根据如下公式进行迭代,直到概率分布向量收敛:最终计算结果如下所示:迭代一次后即可收敛即Pagerank(d1)=0.017,Pagerank(d2)=0.492,Pagerank(d3)=0.492。简单分析可知,d2与d3是对称的。同时由于没有d原创 2022-07-03 17:25:54 · 305 阅读 · 0 评论 -
【信息检索】分类和聚类的实验
请自行从学校公文通获取2021年的新闻文档(爬取或手动下载),要求包括以下150篇新闻文档:“党政办公室”发布的最新的30篇新闻文档,“教务部”发布的最新的30篇新闻文档,“招生办公室”发布的最新的30篇新闻文档,“研究生院”发布的最新的30篇新闻文档,“科学技术部”发布的最新的30篇新闻文档。将“党政办公室”、“教务部”、“招生办公室”、“研究生院”和“科学技术部”作为5个class,并通过互信息和X^2为每个class选出最相关的15个特征(包含特征名称和相应的值,小数点后保留2位),并对结原创 2022-07-03 17:10:30 · 780 阅读 · 1 评论 -
【信息检索】文档评分和概率检索模型
(1). 用Java语言或其他常用语言计算附件“HW4_1.txt”中的80个英文文档(每行表示一个document,文档编号1~80)两两之间的相似度值,并据此为每个文档返回相似度最大的3个文档。要求使用cosine similarity和TF-IDF计算文档之间的相似度(保留小数点后两位),英文单词一律转为小写,不做过滤或其他转换。1.首先读取文件,转换为小写后根据正则表达式对文本进行切割分割原则是非 字母与’-’结果:2.统计文档集的字典将所有term都存入set集合之中进行去重3原创 2022-05-14 22:45:00 · 1442 阅读 · 1 评论 -
【信息检索】索引构建和压缩的实验
(1). 针对附件“HW3.txt”中的600个文档(每行表示一个document,文档ID为1至600)(i)使用jieba中文分词(https://pypi.org/project/jieba/)或其他中文分词工具进行分词;(ii)统计600个文档中的token的总数和term的总数;(iii)构建倒排索引,并输出以下七组查询的文档ID:“迁移”,“迁移学习”,“推荐”,“深度学习”,“隐私”,“跨领域”,“跨域”。代码截图和详细的文字说明:读取文档# 读取文档,并按行分隔doc =原创 2022-05-02 15:00:00 · 449 阅读 · 2 评论 -
【信息检索】词典、倒排记录表和容错式检索
博客地址:https://www.codingshen.com/archives/%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E8%AF%8D%E5%85%B8%E5%80%92%E6%8E%92%E8%AE%B0%E5%BD%95%E8%A1%A8%E5%92%8C%E5%AE%B9%E9%94%99%E5%BC%8F%E6%A3%80%E7%B4%A2(1). 考虑利用如下带有跳表指针的倒排记录表和两个中间结果表(如下所示,不存在跳表指针)分别进行合并操作。3 5原创 2022-04-13 00:00:00 · 1336 阅读 · 0 评论 -
【信息检索】布尔检索和倒排索引
布尔检索和倒排索引的建立。信息检索理论的基础知识原创 2022-03-15 05:35:27 · 3409 阅读 · 0 评论