阅读的第一篇词向量相关的文献是Tomas Mikolov 2013年的论文,其中提到了Bengio在2003的经典文章。经过一番努力,粗略的学习了这两篇文献,并查阅了相关的资料,现简单整理如下:
1、词向量
作为NLP的初学者,遇到的第一个难以理解的概念就是词向量(“Word Representation”或“Word Embedding”)。通俗的来说,词向量就是用一个向量来表示一个词,进而研究词之间的相似性或者说“距离”等特征。一种名为One-hot Representation的方法把每个词均表示为一个很长的向量。(向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1)该方法存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从两个向量中看不出两个词是否有关系,即“距离”难以度量。另一种Distributed Representation方法形如:[0.792, −0.177, −0.107, 0.109, −0.542, …]能更好的表示向量间的距离,按[1]中所述,通常意义上的词向量都是指该种方法表示的。(貌似还有一种“Distributional Representation”的表示方法,大概是基于统计生成的词向量,不太懂。。)
回到语言模型的应用,词向量的维度一般都是相等的,所以可以用矩阵来表示,进而可以通过矩阵变换来得到词的概率分布。语言模型的训练过程其实也是词向量的训练过程,接下来讨论语言模型。
2、语言模型
统计语言模型(Statistical Language Model)是自然语言处理(NLP)中非常重要的一部分。如何判断一个句子是否合理,[2]中表述为句子产生的可能性大小,而可能性
NLP学习笔记(1)-词向量与语言模型
最新推荐文章于 2021-11-24 21:36:05 发布