NLP学习笔记(1)-词向量与语言模型

最新推荐文章于 2021-11-24 21:36:05 发布

锦堇年

最新推荐文章于 2021-11-24 21:36:05 发布

阅读量4.1k

点赞数

文章标签： nlp 词向量-语言模型

本文链接：https://blog.csdn.net/qjc937044867/article/details/50270103

版权

阅读的第一篇词向量相关的文献是Tomas Mikolov 2013年的论文，其中提到了Bengio在2003的经典文章。经过一番努力，粗略的学习了这两篇文献，并查阅了相关的资料，现简单整理如下：
1、词向量
作为NLP的初学者，遇到的第一个难以理解的概念就是词向量（“Word Representation”或“Word Embedding”）。通俗的来说，词向量就是用一个向量来表示一个词，进而研究词之间的相似性或者说“距离”等特征。一种名为One-hot Representation的方法把每个词均表示为一个很长的向量。（向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1）该方法存在一个重要的问题就是“词汇鸿沟”现象：任意两个词之间都是孤立的。光从两个向量中看不出两个词是否有关系，即“距离”难以度量。另一种Distributed Representation方法形如：[0.792, −0.177, −0.107, 0.109, −0.542, …]能更好的表示向量间的距离，按[1]中所述，通常意义上的词向量都是指该种方法表示的。（貌似还有一种“Distributional Representation”的表示方法，大概是基于统计生成的词向量，不太懂。。）
回到语言模型的应用，词向量的维度一般都是相等的，所以可以用矩阵来表示，进而可以通过矩阵变换来得到词的概率分布。语言模型的训练过程其实也是词向量的训练过程，接下来讨论语言模型。
2、语言模型
统计语言模型（Statistical Language Model）是自然语言处理（NLP）中非常重要的一部分。如何判断一个句子是否合理，[2]中表述为句子产生的可能性大小，而可能性

最低0.47元/天解锁文章

锦堇年

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP学习笔记(1)-词向量与语言模型

阅读的第一篇词向量相关的文献是Tomas Mikolov 2013年的论文，其中提到了Bengio在2003的经典文章。经过一番努力，粗略的学习了这两篇文献，并查阅了相关的资料，现简单整理如下： 1、词向量作为NLP的初学者，遇到的第一个难以理解的概念就是词向量（“Word Representation”或“Word Embedding”）。通俗的来说，词向量就是用一个向量来表示一个词，进而研
复制链接

扫一扫