IR&IE笔记:向量空间模型与扩展的向量空间模型

0. 基础概念

1. 一些基础概念

1.1 两个检索有效性参数:

在这里插入图片描述

1.2 TF-IDF

IDF (Inverse Document Frequency) :逆向文档频率

在这里插入图片描述
d f j df_j dfj (document frequency of term Tj) 词项j出现的文档的数量
可以暂且理解为,某个单词出现次数越小,那文档中出现此单词的概率越小,则信息量越高。
d f j df_j dfj=1, i d f j idf_j idfj=logN
d f j df_j dfj=N, i d f j idf_j idfj=log1=0
IDF高有利于正确率。
如果某个词项经常出现在某个文档中,但很少出现在集合的其余部分中,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF(Term Frequency):词频
这个数字通常会被归一化(一般是词频除以文章总词数), 以防止搜索结果偏向于长文本。

t f i j tf_{ij} tfij:词项 t j t_j tj出现在文档 d i d_i di中的频数

T F w = 在 某 一 类 词 条 中 w 出 现 的 次 数 该 类 中 所 有 的 词 条 数 目 TF_w = \frac{在某一类词条中w出现的次数}{该类中所有的词条数目} TFw=w

TF-IDF组合使用,可以同时满足正确率和召回率。

在VSM模型中,它用于计算词项-文档矩阵中的权重 w i j w_{ij} wij
w i j w_{ij} wij 是文档 d i d_i di与词项 t j t_j tj之间的权值在这里插入图片描述

1. Classic Vector Model

每个词项用一个term vector表示
term vector是线性无关的
文档向量和查询向量可以被词向量的线性组合表示
在这里插入图片描述
在这里插入图片描述

例如,下图是一个文档向量被两个词项向量所表示:
在这里插入图片描述
两个文档的相似程度可以用两向量的余弦夹角来进行度量,夹角越小证明相似度越高。
在这里插入图片描述
但此模型的缺点是假设词向量之间相互独立且正交,未考虑词项之间的相关性。
在这里插入图片描述
查询向量q和文档向量d的表示方法如下:
在这里插入图片描述
同样利用余弦相似度计算相关性。
在这里插入图片描述
w i , j w_{i,j} wi,j w i , q w_{i,q} wi,q的计算方法如下:
首先计算 f i , j f_{i,j} fi,j
在这里插入图片描述
f r e q i , j freq_{i,j} freqi,j代表文档dj中词项ki的频率
分母表示文档dj中频率最高的词项的频率
N: 文档总数
n i n_i ni: 词项 k i k_i ki出现的文档的数目

在这里插入图片描述
计算出来做什么用呢?
它们相当于文档向量和查询向量在(词)向量空间的坐标
如下图中的d1 = (2,3,5),d2 = (3,7,1),q = (0,0,2)
在这里插入图片描述

总结向量空间模型:

优点:
1.简洁直观,可以应用到很多领域(文本分类、生物信息学等)2.支持部分匹配和近似匹配,结果可以排序 3. 检索效果不错

缺点:
1.理论上支持不够,基于直觉的经验性公式。 2. 特征项之间相互独立的假设与实际不符。

2. Generalized Vector Space Model

项矢量线性无关,但两两之间不正交。
项矢量不是空间的基,而是由更小的部分组成。
将项矢量扩展到 2 t 2^t 2t维空间上。
在这里插入图片描述
这里定义一个miniterm:
在这里插入图片描述
t维空间扩展成 2 t 2^t 2t维空间后两两正交
索引项在文档内的共现:索引项的相关度
接下来举例进行计算:
在这里插入图片描述
示例3维变成8维,共有3个索引项,20篇文档
第一个索引项矢量如何用8维扩展基矢量表示:
C 1 , 5 C_{1,5} C1,5:这里的1是指term 1,而m5 = (1,0,0),因此去寻找只含有第一个索引项的文档,分别是d1、d4,所以计算w11,w14
C 1 , 6 C_{1,6} C1,6:同时含有第一个、第三个索引项,不含有第二个索引项的文档是d12
C 1 , 7 C_{1,7} C1,7:同时含有第一个、第二个索引项,不含有第三个索引项的文档是d11、 d13、 d14、 d16、 d17、 d18、 d20
C 1 , 8 C_{1,8} C1,8:同时含有第一、二、三个索引项的文档是d15、 d19

直观地看,只包含k1的文档越多, C 1 , 5 C_{1,5} C1,5越大, k 1 ⃗ \vec{k_1} k1 在扩展的向量空间中就越靠近 m 5 ⃗ \vec{m_5} m5
在这里插入图片描述
扩展基矢量两两之间正交,但不相互独立。
在这里插入图片描述

两个索引项矢量的乘积反映了这两个索引项的共现程度,这就解决了之前不考虑词项相关性的问题。
用这种新的扩展矢量方法表示文档和请求
也采用cosine计算文档和请求的相关度

给定检索请求
计算第一个文档的相关度
经典向量空间模型的算法
扩展向量空间模型的算法:考虑了索引项之间的相关度
在这里插入图片描述
相当于利用索引项相关矩阵扩展了查询请求
在这里插入图片描述
特别的,当索引项相关矩阵是单位矩阵时,扩展向量空间模型与经典向量空间模型相同。
在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值