python 信息检索索引压缩_信息检索课程小结

最新推荐文章于 2023-09-05 20:33:35 发布

阿礅

最新推荐文章于 2023-09-05 20:33:35 发布

阅读量252

点赞数

文章标签： python 信息检索索引压缩

本文链接：https://blog.csdn.net/weixin_42102358/article/details/113965036

版权

本文总结了作者使用Python进行信息检索实验的内容，包括E1词频查询、E2汉语分词（最大匹配法）、E3网页处理（使用BeautifulSoup库解析HTML）和E4倒排索引的构建。实验中，作者通过滑动窗口实现最大匹配法，使用BeautifulSoup解析HTML并理解DOM树结构，以及构建倒排索引的基础步骤。

摘要由CSDN通过智能技术生成

这是本学期所有的实验报告

因为大一上学期学了python，这学期学的java还不是很熟练，所以所有的实验都是用python实现的。

E1词频查询

E1词频查询就是对一个英文文档进行词频统计，并实现查询功能。这是容易实现的，因为老师给的文档是处理好的，标点与单词间都有空格，直接读取文件，利用字典操作即可。

E2汉语分词

E2汉语分词需要利用最大匹配法进行中文分词，并且要对分词算法进行评分。所谓最大匹配法就是到给出的词典中去匹配最长的词，这里给出一个例子：

根据这个很容易就想到利用滑动窗口实现。代码如下：

def sliding_window(line, left, right, length, word_dict, fp2):

"""滑动窗口，可从左到右寻找词的最大匹配"""

while left < length:

current = line[left:right]

# 成立的两种条件，最大匹配在字典中和单个字，成立后窗口左端右移，右端还原

if (current in word_dict) or (left + 1 == right):

fp2.write(current + ' ')

left = right

right = length

# 不成立时窗口右端左移

else:

right -= 1

分词结束后要利用F值对算法进行评价，标准如下：

这就需要把分词得到的文档与正确分词的文档进行对比。

E3网页处理

这次实验的任务是从html文件中抽取文本和链接。构建信息检索系统的第一步就是爬取数据(利用爬虫抓取互联网上的网页)以及分析网页(获取文本内容–用于建索引和链接–送给爬虫接着抓取新数据)而这次实验就是分析网页。

这个实验一开始有点懵，想直接利用正则表达式对网页进行处理，是但发现工作量太大了。幸亏python有很多牛逼的库，而本次实验我就用了BeautifulSoup，不得不夸一句这个库是真的好用。然后本次实验的重点就成了学习并熟练掌握bs4。

我觉得理解这个库的关键是理解DOM树结构(Document Object Model)，这里有个学习网站https://www.jianshu.com/p/0ec77136ec48简单来说一个html文件就是文档节点，其中的标签是元素节点，元素中的文本是文本节点，每个属性是属性节点，注释属于注释节点。