目录
0. 基础概念
1. 一些基础概念
1.1 两个检索有效性参数:
1.2 TF-IDF
IDF (Inverse Document Frequency) :逆向文档频率
d
f
j
df_j
dfj (document frequency of term Tj) 词项j出现的文档的数量
可以暂且理解为,某个单词出现次数越小,那文档中出现此单词的概率越小,则信息量越高。
d
f
j
df_j
dfj=1,
i
d
f
j
idf_j
idfj=logN
d
f
j
df_j
dfj=N,
i
d
f
j
idf_j
idfj=log1=0
IDF高有利于正确率。
如果某个词项经常出现在某个文档中,但很少出现在集合的其余部分中,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF(Term Frequency):词频
这个数字通常会被归一化(一般是词频除以文章总词数), 以防止搜索结果偏向于长文本。
t f i j tf_{ij} tfij:词项 t j t_j tj出现在文档 d i d_i di中的频数
T F w = 在 某 一 类 词 条 中 w 出 现 的 次 数 该 类 中 所 有 的 词 条 数 目 TF_w = \frac{在某一类词条中w出现的次数}{该类中所有的词条数目} TFw=该类中所有的词条数目在某一类词条中w出现的次数
TF-IDF组合使用,可以同时满足正确率和召回率。
在VSM模型中,它用于计算词项-文档矩阵中的权重
w
i
j
w_{ij}
wij
w
i
j
w_{ij}
wij 是文档
d
i
d_i
di与词项
t
j
t_j
tj之间的权值
1. Classic Vector Model
每个词项用一个term vector表示
term vector是线性无关的
文档向量和查询向量可以被词向量的线性组合表示
例如,下图是一个文档向量被两个词项向量所表示:
两个文档的相似程度可以用两向量的余弦夹角来进行度量,夹角越小证明相似度越高。
但此模型的缺点是假设词向量之间相互独立且正交,未考虑词项之间的相关性。
查询向量q和文档向量d的表示方法如下:
同样利用余弦相似度计算相关性。
w
i
,
j
w_{i,j}
wi,j和
w
i
,
q
w_{i,q}
wi,q的计算方法如下:
首先计算
f
i
,
j
f_{i,j}
fi,j:
f
r
e
q
i
,
j
freq_{i,j}
freqi,j代表文档dj中词项ki的频率
分母表示文档dj中频率最高的词项的频率
N: 文档总数
n
i
n_i
ni: 词项
k
i
k_i
ki出现的文档的数目
计算出来做什么用呢?
它们相当于文档向量和查询向量在(词)向量空间的坐标
如下图中的d1 = (2,3,5),d2 = (3,7,1),q = (0,0,2)
总结向量空间模型:
优点:
1.简洁直观,可以应用到很多领域(文本分类、生物信息学等)2.支持部分匹配和近似匹配,结果可以排序 3. 检索效果不错
缺点:
1.理论上支持不够,基于直觉的经验性公式。 2. 特征项之间相互独立的假设与实际不符。
2. Generalized Vector Space Model
项矢量线性无关,但两两之间不正交。
项矢量不是空间的基,而是由更小的部分组成。
将项矢量扩展到
2
t
2^t
2t维空间上。
这里定义一个miniterm:
t维空间扩展成
2
t
2^t
2t维空间后两两正交
索引项在文档内的共现:索引项的相关度
接下来举例进行计算:
示例3维变成8维,共有3个索引项,20篇文档
第一个索引项矢量如何用8维扩展基矢量表示:
C
1
,
5
C_{1,5}
C1,5:这里的1是指term 1,而m5 = (1,0,0),因此去寻找只含有第一个索引项的文档,分别是d1、d4,所以计算w11,w14
C
1
,
6
C_{1,6}
C1,6:同时含有第一个、第三个索引项,不含有第二个索引项的文档是d12
C
1
,
7
C_{1,7}
C1,7:同时含有第一个、第二个索引项,不含有第三个索引项的文档是d11、 d13、 d14、 d16、 d17、 d18、 d20
C
1
,
8
C_{1,8}
C1,8:同时含有第一、二、三个索引项的文档是d15、 d19
直观地看,只包含k1的文档越多,
C
1
,
5
C_{1,5}
C1,5越大,
k
1
⃗
\vec{k_1}
k1在扩展的向量空间中就越靠近
m
5
⃗
\vec{m_5}
m5。
扩展基矢量两两之间正交,但不相互独立。
两个索引项矢量的乘积反映了这两个索引项的共现程度,这就解决了之前不考虑词项相关性的问题。
用这种新的扩展矢量方法表示文档和请求
也采用cosine计算文档和请求的相关度
给定检索请求
计算第一个文档的相关度
经典向量空间模型的算法
扩展向量空间模型的算法:考虑了索引项之间的相关度
相当于利用索引项相关矩阵扩展了查询请求
特别的,当索引项相关矩阵是单位矩阵时,扩展向量空间模型与经典向量空间模型相同。