glove
对于一个词 i 出现的次数为 X i X_i Xi,在其某个窗口范围内的词 j 出现的次数为 X i j X_{ij} Xij, X i j X_{ij} Xij 可以直接得到, X i X_i Xi 为所有 X i j X_{ij} Xij 的累加和。对于 i 来说,共现矩阵要对所有 i 出现的地方计算 X i j X_{ij} Xij,最后再累加求和得到 X i X_i Xi。共现矩阵局算的是概率值 P i j = P ( j ∣ i ) = X i j X i P_{ij} = P(j|i) = \frac{X_{ij}}{X_i} Pij=P(j∣i)=XiXij。
j 是 在 i 的窗口内出现的,所以利用到了局部窗口信息;次数的计算利用到了所有 i 和 j 共同出现的地方,这是全局信息。
glove 词向量为什么能够表现出词的意义?
假设有 3 个词:i,j,k。
- 如果词 k 与 i 关联较大,与 j 关联较小,那么 P i k P_{ik} Pik 较大, P j k P_{jk} Pjk 较小, P i k P j k \frac{P_{ik}}{P_{jk}} PjkPik 远大于 1;
- 如果词 k 与 i 关联较小,与 j 关联较大,那么 P i k P_{ik} P