词向量（Word Embedding）

最新推荐文章于 2024-07-17 10:32:10 发布

AI算法工程师YC

最新推荐文章于 2024-07-17 10:32:10 发布

阅读量3.8k

点赞数 4

分类专栏：自然语言处理NLP 文章标签：词向量 Word Embedding

本文链接：https://blog.csdn.net/qq_36134437/article/details/103167894

版权

本文介绍了词向量的两种表示方式：one-hot representation和分布表示，重点讲述了分布表示的优势。并详细讨论了词向量的生成方法，包括共现矩阵、SVD以及基于语言模型的NNLM。此外，还介绍了Google的word2vec工具及其应用场景，如模型训练、增量训练、求相似度和相近词语。最后，提到了词向量训练算法，如CBOW和skip-gram，并指出了词向量研究的挑战与未来前景。

摘要由CSDN通过智能技术生成

一、词的表示

在自然语言处理任务中，首先需要考虑词如何在计算机中表示。通常，有两种表示方式：one-hot representation和distribution representation。简而言之，词向量技术是将词转化成为稠密向量，并且对于相似的词，其对应的词向量也相近。
1.1 离散表示（one-hot representation）
传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号
被称作one-hot representation。one-hot representation把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。
例如：
苹果 [0，0，0，1，0，0，0，0，0，……]
one-hot representation相当于给每个词分配一个id，这就导致这种表示方式不能展示词与词之间的关系。另外，one-hot representation将会导致特征空间非常大，但也带来一个好处，就是在高维空间中，很多应用任务线性可分。

1.2 分布式表示（distribution representation）
word embedding指的是将词转化成一种分布式表示，又称词向量。分布
式表示将词表示成一个定长的连续的稠密向量。

分布式表示优点:
(1)词之间存在相似关系：
是词之间存在“距离”概念，这对很多自然语言处理的任务非常有帮助。
(2)包含更多信息：
词向量能够包含更多信息，并且每一维都有特定的含义。在采用one-hot特征时，可以对特征向量进行删减，词向量则不能。

二、如何生成词向量

本小节来简单介绍词向量的生成技术。生成词向量的方法有很多，这些方法都依照一个思想：任一词的含义可以用它的周边词来表示。生成词向量的方式可分为：基于统计的方法和基于语言模型(language model)的方法。

2.1 基于统计方法
2.1.1 共现矩阵
通过统计一个事先指定大小的窗口内的word共现次数，以word周边的共现词的次数做为当前word的vector。具体来说，我们通过从大量的语料文本中构建一个共现矩阵来定义word representation。
例如，有语料如下：
I like deep learning.
I like NLP.
I enjoy flying.
则其共现矩阵如下：
在这里插入图片描述
矩阵定义的词向量在一定程度上缓解了one-hot向量相似度为0的问题，但没有解决数据稀疏性和维度灾难的问题。
2.1.2 SVD（奇异值分解）
既然基于co-occurrence矩阵得到的离散词向量存在着高维和稀疏性的问
题，一个自然而然的解决思路是对原始词向量进行降维，从而得到一个稠密的连续词向量。
对2.1.1中矩阵，进行SVD分解，得到矩阵正交矩阵U，对U进行归一化得到矩阵如下：