【word2vec】篇二：基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型

最新推荐文章于 2023-10-31 20:33:55 发布

VariableX

最新推荐文章于 2023-10-31 20:33:55 发布

阅读量811

点赞数 2

分类专栏：自然语言处理基础文章标签： nlp 算法

本文链接：https://blog.csdn.net/VariableX/article/details/106532102

版权

本文介绍了基于Hierarchical Softmax的CBOW和Skip-gram模型，详细阐述了它们的基本结构、目标函数、梯度计算过程，并分析了优缺点。CBOW模型通过上下文预测当前词，而Skip-gram模型则反之，两者都利用了霍夫曼树优化输出层的计算。 Hierarchical Softmax避免了全词典softmax计算，但对生僻词的处理效率较低。

摘要由CSDN通过智能技术生成

文章目录

系列文章：

本篇是介绍基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型。

CBOW 模型

基本结构

CBOW 模型是在已知当前词 $w_t$ 的上下文 $w_{t-2},w_{t-1},w_{t+1},w_{t+2}$ 的前提下预测当前词 $w_t$ 。后面我们用 $c o m t e x t (w)$ 来表示词w的上下文中的词，通常，我们取词 w 前后 2c 个单词来组成 $c o m t e x t (w)$ 。下图给出了 CBOW 模型的网络结构：

在这里插入图片描述

它包括三层：输入层，投影层，输出层。

（1）输入层：包含 $c o m t e x t (w)$ 中的 $2 c$ 个词向量 $\mathbf v(context(w)_1),\mathbf v(context(w)_2),\ldots,\mathbf v(context(w)_{2c}) \in \mathbf R^m$ ，每个词向量的长度是 $m$ 。

（2）投影层：将输入层的 $2 c$ 个词向量累加求和，即 $\mathbf x_w = \sum_{i=1}^{2c}\mathbf v(context(w)_i)$ 。

（3）输出层：输出层是用哈夫曼算法以各词在语料中出现的次数作为权值生成的一颗二叉树，其叶子结点是语料库中的所有词，叶子个数N=|D|，分别对应词典D中的词。

神经网络语言模型(NNLM)中大部分计算集中在隐藏层和输出层之间的矩阵向量运算，以及输出层上的softmax归一化运算，CBOW模型对此进行了改进。与传统的神经网络语言模型相比：

NNLM则是简单的将输入的向量进行拼接，而CBOW 模型将上下文的词累加求和作为输入。
NNLM是线性结构，而CBOW 是树形结构。
NNLM具有隐藏层，而CBOW没有隐藏层。

目标函数

假设对于给定的文本，“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词出现的次数分别为15, 8, 6, 5,3, 1。于是可以用这些语料构建霍夫曼树，并将其作为CBOW模型的输出层。如下图所示：

在这里插入图片描述

注意：与常规的霍夫曼树不同，左子树用1编码，右子树用0编码。

接下来，我们用 $p^w$ 表示从根结点出发到达 $w$ 对应叶子结点的路径， $l^w$ 表示这个路径中包含结点的个数， $p_{l}^w$ 表示路径 $p^w$ 中的第 $l$ 个结点， $d_j^w$ 表示路径 $p^w$ 中第 $j$ 个结点对应的编码（0或1）， $\theta^w_j$ 表示路径 $p^w$ 中第 $j$ 个非叶子结点对应向量。

我们的目标是利用输入向量 $X_w$ 和霍夫曼树来定义函数 $p (w ∣ c o n t e x t (w))$ 。

以图中的词 $w = " 足球 "$ 为例，从霍夫曼树的根结点出发到“足球”，中间经历了4个分支，每一次分支，都可以看成进行了一次二分类。那么从二分类的角度来看，对于每个非叶子结点，就需要为其左右孩子指定类别。我们规定：编码为1的结点定义为负类，编码为0的结点定义为正类。也就是说，将一个结点进行二分类，分到左边是负类，分到右边是正类。所以有：
$Label(p_i^w) = 1- d_i^w, \quad i=1,2,\ldots,l^w$
我们用逻辑斯蒂回归进行二分类，一个结点被分为正类的概率是：
$\sigma(\mathbf x_w^T\theta) = \frac{1}{1+e^{-\mathbf x_w^T\theta}}$
被分成负类的概率为：
$1-\sigma(\mathbf x_w^T\theta)$
这里的 $\theta$ 就是非叶子节点对应的向量，是个待定参数。