word2vec 要点梳理

NLP_wendi

已于 2022-04-20 09:21:48 修改

阅读量587

点赞数

分类专栏： NLP 文章标签：机器学习 nlp

于 2022-03-24 11:49:05 首次发布

本文链接：https://blog.csdn.net/qq_32275289/article/details/123707115

版权

NLP 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

论文链接：Efficient Estimation of Word Representations in Vector Space

哈夫曼树

输入：权值为 $（ w 1, w 2, . . ., w n ）$ 的n个节点【对应文本的话，为每个词的词频】
输出：对应的哈夫曼树

step1：将 $（ w 1, w 2, . . ., w n ）$ 看做是有n棵树的森林，每棵树仅有一个几点；
step2：在森林中选择根节点权值最小的两棵树进行合并，得到一棵新的树，这两棵树分别作为新树的左右子树。
新树的根节点权值为左右子树的根节点权重之和；
step3：将之前的根节点权值最小的两棵树从森林中删除，并把新树加入森林；
step4：重复步骤2）和3）直到森林里只有一棵树为止。

在word2vec中，约定编码方式和上面的例子相反，即约定左子树编码为1，右子树编码为0，同时约定左子树的权重不小于右子树的权重。

示例：我们有(a,b,c,d,e,f)共6个节点，节点的权值分布是(20,4,8,6,16,3)。
在这里插入图片描述

Hierarchical Softmax

在这里插入图片描述

两个优化点：
1、输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入向量取平均的方法；
2、从隐藏层到输出层的改进，避免所有词的softmax概率【百万级别】，采用哈夫曼树，做 hierarchical softmax。

在这里插入图片描述

我们使用最大似然法来寻找所有节点的词向量和所有内部节点 $\theta$ 。先拿上面的 $w_2$ 来看，我们期望最大化下面的似然函数：
$\prod_{i=1}^3P(n(w_i), i) = (1-\frac{1}{(1+e^{-x_w^T\theta_1})})(1-\frac{1}{(1+e^{-x_w^T\theta_2})})\frac{1}{(1+e^{-x_w^T\theta_3})}$

定义 $w$ 经过的霍夫曼树某一个节点 $j$ 的逻辑回归概率为，其表达式为：

$P(d_j^w|x_w, \theta_{j-1}^w)=\left\{ \begin{aligned} \sigma(x_w^T\theta_{j-1}^w) & & d_j^W=0 \\ 1- \sigma(x_w^T\theta_{j-1}^w) & & d_j^W=1 \end{aligned} \right.$
那么对于某一个目标输出词𝑤w,其最大似然为：

$\prod_{j=2}^{l_w}P(d_j^w|x_w, \theta_{j-1}^w) = \prod_{j=2}^{l_w}(\sigma(x_w^T\theta_{j-1}^w))^{1-d_j^w}(1-\sigma(x_w^T\theta_{j-1}^w))^{d_j^w}$

Negative Sampling

负采样方法
现在我们来看看如何进行负采样，得到 $n e g$ 个负例。word2vec采样的方法并不复杂，如果词汇表的大小为 $V$ ,那么我们就将一段长度为1的线段分成 $V$ 份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短。每个词 $w$ 的线段长度由下式决定：

$\frac{count(w)}{\Sigma_{u\in{vocab}}count(u)}$

在word2vec中，分子和分母都取了3/4次幂如下：
$\frac{count(w)^{3/4}}{\Sigma_{u\in{vocab}}count(u)^{3/4}}$

在采样前，我们将这段长度为1的线段划分成 $M$ 等份，这里 $M > > V$ ，这样可以保证每个词对应的线段都会划分成对应的小块。而 $M$ 份中的每一份都会落在某一个词对应的线段上。在采样的时候，我们只需要从 $M$ 个位置中采样出 $n e g$ 个位置就行，此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。

在这里插入图片描述

NLP_wendi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
word2vec 要点梳理

论文链接：Efficient Estimation of Word Representations in Vector Space哈夫曼树输入：权值为（w1,w2,...,wn）（w1, w2, ..., wn）（w1,w2,...,wn）的n个节点【对应文本的话，为每个词的词频】输出：对应的哈夫曼树step1：将（w1,w2,...,wn）（w1, w2, ..., wn）（w1,w2,...,wn）看做是有n棵树的森林，每棵树仅有一个几点；step2：在森林中选择根节点权值最小的两棵树进行合并，得
复制链接

扫一扫