算一算-Word2Vec

最新推荐文章于 2025-05-20 09:30:52 发布

原创

最新推荐文章于 2025-05-20 09:30:52 发布 · 1.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#Word2Vec #Word2Vec实践 #Word2Vec计算

本文详细介绍了Word2Vec在SkipGram和Hierarchical SoftMax模型下的训练过程，通过实例展示了从预处理到训练词向量的每一步，包括初始化、计算、更新词向量和哈夫曼树的应用，帮助读者深入理解Word2Vec的计算流程。

摘要

在前面的文章里面已经非常粗略的介绍过Word2Vec的原理，因为网上关于W2V的学习材料已经足够多了，写的也非常的好。但是大部分的文章也是只是介绍了整个W2V的原理，对于里面一些计算的细节，似乎并没有文章分析，另一方面，可能对于部分人来说，读完了原理之后非常想有一个真真切切的例子把整个Word2Vec的流程算一遍，所以，本文参照前面对GBDT，XGBOOST的文章，把整个W2V的计算过程演示一遍，希望大家能结合论文和本文的例子，对W2V有一个进一步的把握，同时也帮想自己造W2V轮子的读者理一理脉络。

前言：

在本文里面，我先会介绍Word2Vec在Skipgram&Hierarchical SoftMax(层级SoftMax)下的训练过程，之后会介绍Skipgram在Negative Sampling的训练过程。最后一部分是CBOW的训练过程。

另外，本文假设你已经阅读一些关于W2V的学习材料，知道一些基本的概念（哈夫曼树、SkipGram、CBOW、Negative Sampling、基本参数等）

训练参数

为了方便说明整个计算的流程，先做一下参数的设定。

这里写图片描述

学习的预料如下（3个句子）
这里写图片描述
（句子乱敲的，别在意细节）

SkipGram & Hierarchical SoftMax 训练过程

预备工作：

从上面的语料，我们知道，我们一共有6个单词。而且设定了embedding之后的词向量长度为了5，所以，我们先给每个词向量做一个初始化，具体如下：

这里写图片描述

然后，我们来构造一下我们的训练数据，SkipGram的核心思想就是利用中心词 $w$ 去预测中心词 $w$ 的上下文 $Content(w)$ ，所以，很自然，在窗口为5的情况下我们有如下全部的训练数据：
这里写图片描述
之后，我们再根据预料中单词出现的频次建一个哈夫曼树，具体如下：

这里写图片描述
可以看到，对于出现次数最多的单词’cat’编码为0（最短），其余单词出现次数均为1，这个时候剩余单词的编码就无所谓了。

值得注意的是，其实在层级SoftMax中并非一定要使用哈夫曼树，用这种数据结构是为了性能，使得训练的速度加快，后面代码分析部分会简单说明说这个问题。

另外，我们把每个词的编码，以及每个词从根结点到其叶子结点路径上所经过的 $\boldsymbol{\theta}$ 编号整理成如下表（后面会用到）
这里写图片描述

在完成上面的准备工作后，是时候给出SkipGram下的 Hierarchical SoftMax的伪代码了。这个伪代码的推导过程参考文章。

Algorithm 1:SkipGram−HierarchicalSoftMax_______________________________________________________________________________Input:w,中心词wInput:Context(w)，中心词w的上下文集合Input:V(w),中心词w的词向量Input:θindex,非叶子结点的向量,index为非叶子结点的编号For U in Context(w) do:       e=0       For j in range(codelen{ U}) do :               index=word_ point{ U}j               f=σ(V(w)Tθindex)               g=η(1−code{ U}j−f)               e:=e+gθindex               θindex:=θindex+gV(w)       V(w):=V(w)+eEnd A l g o r i t h m   1 : S k i p G r a m − H i e r a r c h i c a l S o f t M a x _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ I n p u t : w , 中 心 词 w I n p u t : C o n t e x t ( w ) ， 中 心 词 w 的 上 下 文 集 合 I n p u t : V ( w ) , 中 心 词 w 的 词 向 量 I n p u t : θ i n d e x , 非 叶 子 结 点 的 向 量 , i n d e x 为 非 叶 子 结 点 的 编 号 F o r   U   i n   C o n t e x t ( w )   d o :               e = 0               F o r   j   i n   r a n g e ( c o d e l e n { U } )   d o   :                               i n d e x = w o r d _   p o i n t { U } j                               f = σ ( V ( w ) T θ i n d e x )                               g = η ( 1 − c o d e { U } j − f )                               e := e + g θ i n d e x                               θ i n d e x := θ i n d e x + g V ( w )               V ( w ) := V ( w ) + e E n d

$\\ {\boxed {\large {\mathbf {Algorithm\ 1:SkipGram- Hierarchical SoftMax}}\\ \_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\\ \large Input:w,中心词w\\ \large Input:Context(w)，中心词w的上下文集合\\ \large Input:\mathbf{V}(w),中心词w的词向量\\ \large Input:\boldsymbol{\theta}_{index} ,非叶子结点的向量,index为非叶子结点的编号 \\ \large For \ U\ in\ Context(w)\ do :\\ \ \ \ \ \ \ \ \large \boldsymbol{e}=\boldsymbol{0}\\ \ \ \ \ \ \ \ \large For\ j \ in\ range(codelen\{U\})\ do\ : \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large index=word\_\ point\{U\}_j\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large g=\eta(1-code\{U\}_j-f)\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large \boldsymbol{e}:=\boldsymbol{e}+g\boldsymbol{\theta}_{index}\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large \boldsymbol{\theta}_{index}:=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)\\ \ \ \ \ \ \ \ \large \boldsymbol{V}(w):=\boldsymbol{V}(w)+\boldsymbol{e}\\ \large End\\ } }$

这里先简单的解释一下算法流程图中的一些变量。

$\sigma(x)是sigmoid函数,即\sigma(x)=\frac{1}{1+e^{-x}}$