词向量介绍以及Word2Vec的pytorch实现

郑不凡

已于 2022-06-27 10:33:20 修改

阅读量2k

点赞数 2

文章标签： word2vec pytorch 深度学习

于 2021-11-02 17:05:18 首次发布

本文链接：https://blog.csdn.net/m0_50896529/article/details/121075684

版权

词向量

在自然语言处理任务中，首先需要考虑字、词如何在计算机中表示。通常，有两种表示方式：one-hot表示和分布式表示

one-hot表示
把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。例如：苹果 [0,0,0,1,0,0,0,0,···] 。one-hot表示不能展示词与词之间的关系，且特征空间非常大。
分布式表示
word embedding指的是将词转化成一种分布式表示，又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。

分布式表示优点:

(1) 词之间存在相似关系：是词之间存在“距离”概念，这对很多自然语言处理的任务非常有帮助。

(2) 包含更多信息：词向量能够包含更多信息，并且每一维都有特定的含义。在采用one-hot特征时，可以对特征向量进行删减，词向量则不能。

NNLM和word2vec

不像图像，其本身输入到计算机中是矩阵，矩阵里的数字就隐含了其各种各样的特征，这些特征可以通过模型去学习和捕捉。而文本的输入，是字符串，这是计算机处理不了的，所以当初人们首先想到的就是独热编码，第一是这样就可以将文本转化为数字，计算机能进行处理；第二就是每个词都可以独一无二的被表示。但是这种表示丢失了词的一个很重要的特征，即语义。为了进行语义信息，联想到了分布式表示，分布式表示一个很重要的核心思想是：语义相近的词在高维度上是相互接近的。这里用一个简单的例子来感受一下分布式表示的魅力：

比如，我们要表示三样东西“红色的正三角形”，“红色的圆正方形”，“绿色的正三角形”，如果用one-hot编码表示，则分别为[1,0,0],[0,1,0],[0,0,1]。可以发现若这样表示，三个向量在三维空间上彼此正交，其之间的潜在特征将会因为这样的表示而消失。若我们在3维空间上，第一个维度空间表示颜色（红色0绿色1），第二个维度空间上表示圆和正（正0圆1），第三个维度空间上表示形状（三角形0正方形1），那么此时这三个向量可以表示为[0,0,0],[0,1,1],[1,0,0],我们发现，这三个向量彼此之间就存在了联系，若在来一个“绿色的圆三角形”，我们也可以轻松的表示为 [1,1,0]，而不是独热编码的所有向量由三维变成四维。这也是独热编码的另一个致命缺陷，数据过于稀疏。

Word2Vec

2013 年，Google 团队发表了 word2vec 工具。word2vec 工具主要包含两个模型：跳字模型（skip-gram）和连续词模型（continuous bag of words，简称 CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序 softmax（hierarchical softmax）。值得一提的是，word2vec 词向量可以较好地表达不同词之间的相似度和类比关系。

skip-gram：是根据目标词去预测周围词来训练得到词向量
CBOW：是根据上下文取预测目标词来训练得到词向量

skip-gram

例如，给定文本序列 “the”,“man”,“hit”,“his”,“son”。设背景窗口大小为 2，跳字模型所关心的是，给定 “hit”，生成它邻近词 “the”,“man”.“his”,“son” 的概率（在这个例子中，“hit” 叫中心词，“the”,“man”,“his”,“son” 叫背景词），即
$P(context(w_t)|w_t)$ $P (t h e, m a n, h i s, s o n ∣ h i t)$ 假设在给定中心词的情况下，背景词的生成是相互独立的，那么上式可以改写成 $P (t h e ∣ h i t) \cdot P (m a n ∣ h i t) \cdot P (h i s ∣ h i t) \cdot P (s$

最低0.47元/天解锁文章

郑不凡

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
词向量介绍以及Word2Vec的pytorch实现

NNLM和word2vec不像图像，其本身输入到计算机中是矩阵，矩阵里的数字就隐含了其各种各样的特征，这些特征可以通过模型去学习和捕捉。而文本的输入，是字符串，这是计算机处理不了的，所以当初人们首先想到的就是独热编码，第一是这样就可以将文本转化为数字，计算机能进行处理；第二就是每个词都可以独一无二的被表示。但是这种表示丢失了词的一个很重要的特征，即语义。为了进行语义信息，联想到了分布式表示，分布式表示一个很重要的核心思想是：语义相近的词在高维度上是相互接近的。这里用一个简单的例子来感受一下分布式表示的魅
复制链接

扫一扫