前言:
如果需要对基础概念不了解,可以参考这里。我汇总了论文中涉及的大部分概念,以便更好的理解论文。
目录
NLP十大Baseline论文简述(一) - Word2vec
NLP十大Baseline论文简述(五) - chartextcnn
NLP十大Baseline论文简述(六) -fasttext
NLP十大Baseline论文简述(七) - deep_nmt
NLP十大Baseline论文简述(八) - attention_nmt
NLP十大Baseline论文简述(九) - han_attention
1. Paper:
GloVe: Global Vectors for Word Representation 基于全局信息的单词向量表示
2.论文摘要
Recent methods for learning vector spacerepresentations of words have succeededin capturing fine-grained semantic andsyntactic regularities using vector arith-metic, but the origin of these regularitieshas remained opaque. 最近学习单词的向量空间表示的方法已经成功地使用向量算术方法捕获了细粒度的语义和语法规则,但这些规则的起源仍然不清楚。
We analyze andmake explicit the model properties neededfor such regularities to emerge in wordvectors. 我们分析并明确了在词向量中出现这种规律所需的模型性质。
The result is a new global log-bilinear regression model that combinesthe advantages of the two major modelfamilies in the literature: global matrixfactorization and local context windowmethods. 结果是一个新的全局对数双线性回归模型,它结合了文献中两大模型族的优点:全局矩阵分解和局部上下文窗口方法。
Our model efficiently leveragesstatistical information by training only onthe nonzero elements in a word-word co-occurrence matrix, rather than on the en-tire sparse matrix or on individual contextwindows in a large corpus. 我们的模型通过只对词-词共现矩阵中的非零元素进行训练,而不是对整个稀疏矩阵或大型语料库中的单个上下文窗口进行训练,有效地利用了统计信息。
The model pro-duces a vector space with meaningful sub-structure, as evidenced by its performanceof 75% on a recent word analogy task. 该模型生成了一个具有有意义子结构的向量空间,在最近的一个单词类比任务中,该模型的性能达到了75%。
Italso outperforms related models on simi-larity tasks and named entity recognition. 在相似任务和命名实体识别方面也优于相关模型。
3.研究成果
在词对推理数据集上取得最好的结果
公布了一系列基于GloVe的预训练词向量 https://nlp.stanford.edu/projects/glove/
4.GloVe模型
根据观察得知:(60亿语料库corpus)
我们可以用一些词来描述一个词,比如使用冰块和蒸汽来描述固体,气体,水和时尚四个词。
与冰块相近,并且与蒸汽不接近:固体并且概率比值很大
与蒸汽接近,并且与冰块不接近,气体并且概率比值很小
与冰块和蒸汽都不接近,水和时尚并且概率比值不大不小
结论: 共现矩阵的概率比值可以用来区分词。
在讲GloVe模型前先介绍两个其他方法:
一个是基于奇异值分解(SVD)的LSA算法,该方法对term-document矩阵(矩阵的每个元素为tf-idf)进行奇异值分解,从而得到term的向量表示和document的向量表示。此处使用的tf-idf主要还是term的全局统计特征。
另一个方法是word2vec算法,该算法可以分为skip-gram 和 continuous bag-of-words(CBOW)两类,但都是基于局部滑动窗口计算的。即,该方法利用了局部的上下文特征(local context)
LSA和word2vec作为两大类方法的代表,一个是利用了全局特征的矩阵分解方法,一个是利用局部上下文的方法。
GloVe模型就是将这两中特征合并到一起的,即使用了语料库的全局统计(overall statistics)特征,也使用了局部的上下文特征(即滑动窗口)。为了做到这一点GloVe模型引入了Co-occurrence Probabilities Matrix。
论文总结
关键点:
- 矩阵分解的词向量学习方法
- 基于上下文的词向量学习方法
- 预训练词向量
创新点:
- 提出了一种新的词向量训练模型—GloVe
- 在多个任务上取得最好的结果
- 公布了一系列预训练的词向量