《GloVe: Global Vectors for Word Representation》 笔记1
motivation
在此论文之前学习单词向量表示的方式主要有两种,一种是 基于计数的全局矩阵分解(global matrix factorization methods) ,一种是局部上下文窗口(local context window methods),但是这两种方法都有一定有缺点
- 基于计数的全局矩阵分解(global matrix factorization methods) ,比如LSA(latent semantic analysis)
- 优点:可以捕获单词的之间的相似性
- 缺点:在词类比任务上表现不行(论文作者认为是因为该方法找到的是一个次优的词向量空间)
- 局部上下文窗口(local context window methods) 比如 skip-gram、CBOW、ivLBL、vLBL这些模型
- 优点:在词类比任务上表现不错
- 缺点:没有利用全局共现计数的统计信息。
基于以上认识,作者提出了一个利用全局统计数据的模型 GloVe,Global Vectors。
模型推出
作者举了个例子,如下图
作者用图中的例子说明 概率的比值( P ( k ∣ i c e ) P ( k ∣ s t e a m ) \frac{P(k|ice)}{P(k|steam)} P(k∣steam)P(k∣ice)),比概率( P ( k ∣ i c e ) , P ( k ∣ s t e a m ) P(k|ice),P(k|steam) P(k∣ice),P(k∣steam))更能揭示单词之间的关系,比如ice 和solid共现的概率较高,steam和solid的共现概率较低,则 P ( k ∣ i c e ) P ( k ∣ s t e a m ) \frac{P(k|ice)}{P(k|steam)} P(k∣steam)P(k∣ice) 的值大于1;ice和gas的共现概率较低,steam和gas的共现概率较高, P (