信息检索模型与评估

最新推荐文章于 2021-12-14 18:23:23 发布

gscienty

最新推荐文章于 2021-12-14 18:23:23 发布

阅读量1.6k

点赞数

分类专栏：数据分析文章标签：自然语言索引

本文链接：https://blog.csdn.net/gscienty/article/details/53333639

版权

信息检索的前提是对信息内容的索引提取，所谓的索引就是指用于标识信息内容的项。建立信息的索引的方法，通常可分为两类：一种是手动定义索引，一种是自动获取索引。而我们所要面临的数据源，既可能是模块化或结构化的语言，譬如HTML语言，又可能是非结构化的语言，譬如自然语言；既可能是与上下文相关的词汇，又可能是与上下文无关的词汇；既可能是一个简单的单词又可能是一个词组（这里的数据源前提假设为英文，对于中文的信息检索，由于已经存在成型的信息检索模型，如果要套用在中文信息检索中，需要进行中文分词）
索引建立的关键问题是：我们通过什么样的方式来确定哪些单词是可以用作索引的？我们可以选择什么样的方法来标记出这些单词？
对于信息检索的效果，我们可以通过两个参数来进行量化参考：
召回率与查询项目相关的信息的数量的估值
精确率与查询项目相关的信息的精确程度的估值
当然，我们希望这两个值越高越好，因此每个文档中的索引与对应的召回率和精确率的估值是我们所要关心的重点。
但是我们需要额外注意一下我们应该选取何种词性的词语选择成为索引。很显然，譬如连词、介词等等这样词性的词汇就应该尽量避免使用，而含有语义性的词语则适合充当索引。
以下是集中建立信息检索模型的方法。

一种基于频率的检索建立模型 : TF-IDF

基于该模型建立的检索索引，首先应避免考虑功能词。即功能词将不包含在计算的词汇之中。
计算每个在文档D[i]中的出现单词T[j]的单词频度（我在作业中使用的是频率，屏蔽了单词个数分布不均的情况，但可能会造成误差。）tf[i,j]。即tf[i,j]的值为词汇j在文档i中出现的次数（或频率）
选择一个阈值频度（频率），用于筛选出文档的高频单词。
这一步的工作主要是可以筛选出可以很好标识文档的索引项集合，通过筛选出的索引项，我们能够从众多文档中区分出我们所要找到的文档，可以保证检索的召回率。当一个词汇的频率在其他的文档中不高时，可以保证检索的精确率。
但是我们通过频度来进行衡量的话，会出现一个问题，即单词个数的分布不均，这样会影响检索结果的准确性。因此解决这个的办法通常有两个：一个是规范化标准化（即可计算频率），或者是添加另一个参数，如反向文档频率
对于词汇j, 计算其反向文档频率的公式如下：

i d f j = l o g N

最低0.47元/天解锁文章

gscienty

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
信息检索模型与评估

信息检索的前提是对信息内容的索引提取，所谓的索引就是指用于标识信息内容的项。建立信息的索引的方法，通常可分为两类：一种是手动定义索引，一种是自动获取索引。而我们所要面临的数据源，既可能是模块化或结构化的语言，譬如HTML语言，又可能是非结构化的语言，譬如自然语言；既可能是与上下文相关的词汇，又可能是与上下文无关的词汇；既可能是一个简单的单词又可能是一个词组（这里的数据源前提假设为英文，对于中文的信息
复制链接

扫一扫