参考:https://towardsdatascience.com/light-on-math-ml-intuitive-guide-to-understanding-glove-embeddings-b13b4f19c010
一、GloVe 与 Word2vec 区别
不仅依赖于本地统计信息(单词的本地上下文信息),而且还结合了全局统计信息(单词共现)来获取单词向量。
全局统计数据得出单词之间的语义关系的想法可以追溯到 潜在的语义分析(LSA——latent semantic analysis)。
LSA假设含义相似的单词将出现在相似的文本片段中(分布假设)。
分布假说(Vector Semantics): 两个词在语义上相似度越高,它们反过来在分布上越相似,因此,在相似的语言环境中,它们越倾向于出现。
the cat sat on mat.
词语前后是共现。