无所不能的Embedding 1 - Word2vec模型详解&代码实现

最新推荐文章于 2024-10-01 17:17:03 发布

liudahai777

最新推荐文章于 2024-10-01 17:17:03 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/li123128/article/details/107744090

版权

本文详细介绍了Google 2013年提出的word2vec模型，包括CBOW和Skip Gram两种方法，以及模型的推导、训练过程，如Hierarchical Softmax和Negative Sampling。此外，还讨论了模型实现的细节，并提供了代码链接。

摘要由CSDN通过智能技术生成

word2vec是google 2013年提出的，从大规模语料中训练词向量的模型，在许多场景中都有应用，信息提取相似度计算等等。也是从word2vec开始，embedding在各个领域的应用开始流行，所以拿word2vec来作为开篇再合适不过了。本文希望可以较全面的给出Word2vec从模型结构概述，推导，训练，和基于tf.estimator实现的具体细节。完整代码戳这里https://github.com/DSXiangLi/Embedding

模型概述

word2vec模型结构比较简单，是为了能够在大规模数据上训练，降低了模型复杂度，移除了非线性隐藏层。根据不同的输入输出形式又分成CBOW和SG两种方法。

让我们先把问题简化成1v1的bigram问题，单词i作为context,单词j是target。V是单词总数，N是词向量长度，D是训练词对，输入xi∈R1∗Vxi∈R1∗V是one-hot向量。

模型训练两个权重矩阵,W∈RV∗NW∈RV∗N是输入矩阵，每一行对应输入单词的词向量,W′∈RV∗NW′∈RV∗N是输出矩阵，每一行对应输出单词的词向量。词i和词j的共现信息用词向量的内积来表达，通过softmax得到每个单词的概率如下

h=vwIvw′jujyj=p(wj|wI)=WTxi=W′Txj=vTw′jh=exp(uj)∑Vj′=1exp(uj′)(1)(2)(3)(4)(1)h=vwI=WTxi(2)vw′j=W′Txj(3)uj=vw′jTh(4)yj=p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)

对每个训练样本，模型的目标是最大化条件概率p(wj|wI)p(wj|wI), 因此我们的对数损失函数如下

E=−logP(wj|wI)=−u∗j+log∑j′=1Vexp(uj′)(5)(6)(5)E=−logP(wj|wI)(6)=−uj∗+log∑j′=1Vexp(uj′)

CBOW : Continuous bag of words

CBOW是把bigram的输入context，扩展成了目标单词周围2*window_size内的单词，用中心词前后的语境来预测中心词。

对比bigram, CBOW只多做了一步操作，对输入的2 * Window_size个单词，在映射得到词向量后，需要做average_pooling得到1*N的输入向量, 所以差异只在h的计算。假定C=2∗window_sizeC=2∗window_size

hE=1CWT(x1+x2+...+xC)=1C(vw1+vw2+...+vwc)T=−logp(wO|wI,1...wI,C)=−u∗j+log∑j′=1Vexp(uj′)(7)(8)(9)(10)(7)h=1CWT(x1+x2+...+xC)(8)=1C(vw1+vw2+...+vwc)T(9)E=−logp(wO|wI,1...wI,C)(10)=−uj∗+log∑j′=1Vexp(uj′)

SG : Skip Gram

SG是把bigram的输出target，扩展成了输入单词周围2*window_size内的单词，用中心词来预测周围单词的出现概率。

对比bigram，SG的差异只在于输出概率多项分布不再是一个而是C个

E=−logp(wO,1,wO,2,...wO,C|wI)=∑c=1Cu∗j,c+C⋅log∑j′=1Vexp(uj′)(11)(12)(11)E=−logp(wO,1,wO,2,...wO,C|wI)(12)=∑c=1Cuj,c∗+C⋅log∑j′=1Vexp(uj′)

模型推导：word embedding是如何得到的？

下面我们从back propogation推导下以上模型结构是如何学到词向量的，为简化我们还是先从bigram来看，ηη是learning rate。

首先是hidden->output W′W′的词向量的更新

∂E∂vw′jv(new)w′j=∂E∂uj∂uj∂vw′j=(p(wj|wi)−I(j=j∗))⋅h=ej⋅h=v(old)w′j−η⋅ej⋅h(13)(14)(15)(16)(13)∂E∂vw′j=∂E∂uj∂uj∂vw′j(14)=(p(wj|wi)−I(j=j∗))⋅h(15)=ej⋅h(16)vw′j(new)=vw′j(old)−η⋅ej⋅h

ejej是单词j的预测概率误差，所以W′W′的更新可以理解为如果单词j被高估就从vw′jvw′j中减去η⋅ej⋅hη⋅ej⋅h，降低h和vw′jvw′j的向量内积(similarity)，反之被低估则在vw′jvw′j上叠加η⋅ej⋅hη⋅ej⋅h增加内积相似度，误差越大更新的幅度越大。

然后是input->hidden W的词向量的更新

∂E∂hv(new)wI=∑j=1V∂E∂uj∂uj∂h=∑j=1Vej⋅vw′j=v(old)wI−η⋅∑j=1Vej⋅vw′j(17)(18)(19)(17)∂E∂h=∑j=1V∂E∂uj∂uj∂h(18)=∑j=1Vej⋅vw′j(19)vwI(new)=vwI(old)−η⋅∑j=1Vej⋅vw′j

每个输入单词对应的词向量vwIvwI，都用所有单词的输出词向量按预测误差加权平均得到的向量进行更新。和上述的逻辑相同高估做subtraction，低估的做addition然后按误差大小进行加权来更新输入词向量。

所以模型学习过程会是输入词向量更新输出词向量，输出词向量再更新输入词向量，然后back-and-forth到达稳态。

把bigram拓展到CBOW，唯一的变化在于更新input-