word2vec的原理以及实现

最新推荐文章于 2024-07-26 13:24:37 发布

tostq

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量951

点赞数

文章标签： word2vec 人工智能机器学习

本文链接：https://blog.csdn.net/tostq/article/details/129791317

版权

word2vec是早期NLP的必要预处理过程，其用于生成词的向量表示（embeding）。

$w_{embed} = f(word)=[0.1,0.2,...,0.21,0.32]$

其将单词映射为固定长度的向量（embeding向量），而通过向量表示可以更好地表达不同词之间的相关性，因此会使得后续的分类、生成等NLP任务更好地学习训练。word2vec描述不同词之间的相关性，主要是指词同其上下文的其他词的共现性，主要有两种范式：

跳元模型Skip-gram：其是假设通过中心词 $w_c$ 生成其上下文 $w_{c\pm i}$ ，因此其目标是在中心词下，其上下文的条件概率 $P(w_{c-k},...,w_{c-1},w_{c+1},...,w_{c+k}|w_c)$ 最大，即如下优化式子，C表示中心词的数量，k表示上下文窗口数。

$\prod^C_c P(w_{c-k},...,w_{c-1},w_{c+1},...,w_{c+k}|w_c)=\prod^C_c \prod^k_{i=1} P(w_{c-i}|w_c)*P(w_{c+i}|w_c)$

连续词袋CBOW：其是假设通过上下文 $w_{c\pm i}$ 生成中心词 $w_c$ ，因此其目标在上下文下，其中心词生成条件概率 $P(w_c | w_{c-k},...,w_{c-1},w_{c+1},...,w_{c+k})$ 最大，即如下优化式子：

$\prod^C_c P(w_c|w_{c-k},...,w_{c-1},w_{c+1},...,w_{c+k})$

本文重点介绍跳元模型Skip-gram，为了求解上述式子，将上式求log转换为最小化下式：

$Min - \sum^C_c \sum^{\pm k}_{i=\pm 1} log(P(w_{c+i}|w_c))$

$P(w_u|w_c)=\frac{P(w_u, w_c)}{P(w_c)}=\frac{P(w_u, w_c)}{\sum P(w_*, w_c)}$

其中上式中的词与词间的联合分布 $P(w_u,w_c)$ 可以由词向量相似度衡量，word2vec为了方便计算，通过exp形式进行度量：

$P(w_u|w_c)=\frac{P(w_u, w_c)}{P(w_c)}=\frac{P(w_u, w_c)}{\sum P(w_*, w_c)}=\frac{e^{Ew_u * Ew_c}}{\sum e^{Ew_* *Ew_c}}$

上式中的 $Ew$ 表示词向量，word2vec就是通过Embeding模块实现由单词到词向量的转换，从而上面的Loss最小化。Embeding模块实际上类似由于一个全连接网络层，其输入是N维的one-hot向量（N是指全量词的个数），输出是L维的向量（L是词向量的长度），其参数量总共为N*L。

word2vec主要是为求解上述Embeding模块的权重参数 $w_{c,h}$ ，其组成了中心词c的词向量 $Ew_c$ ，可以求其偏导数如下：

$\\ \frac{\partial logP(w_o|w_c)}{\partial Ew_c}\\ =\frac{\partial }{\partial Ew_c}(Ew_o*Ew_c-log(\sum P(w_*, w_c)))\\ =Ew_o-\frac{\sum Ew_* P(w_*, w_c)}{\sum P(w_*, w_c)}\\ =Ew_o-\sum P(w_*|w_c)Ew_*$

以下我们通过paddle代码实现word2vec网络结构的定义：

class Word2Vec(nn.Layer):
    def __init__(self, num_embeddings, embedding_dim):
        super(Word2Vec, self).__init__() 
        self.embed = nn.Embedding(num_embeddings, embedding_dim, 
                weight_attr=paddle.ParamAttr(
                    name="center_embed",
                    initializer=paddle.nn.initializer.XavierUniform()))
        
    # 执行前向计算
    def forward(self, center, contexts_and_negatives=None):
        """Skip-Gram"""
        v = self.embed(center)
        if contexts_and_negatives is None:
            return v
        u = self.embed(contexts_and_negatives)
        pred = paddle.squeeze(paddle.bmm(v, u.transpose(perm=[0, 2, 1])), axis=1)
        return pred

上述定义中的pred用于表示 $Ew_u*Ew_v$ 来描述两个词向量相乘项。

在训练时，我们将原来Loss转换为批量进行训练，另外 $P(w_u|w_c)$ 的求解由于涉及到softmax计算，计算相对困难，因此一种我们将简化的方式进行训练（负采样）。

其首先定义 $w_u,w_c$ 共同出现时，定义词u在中心词窗口k内的概率为：

$P(D=1|w_u,w_c)=\sigma (Ew_u*Ew_c)=\frac{1}{1 + e^{-Ew_u*Ew_c}}$

同理不在中心词窗口k内的概率为：

$P(D=0|w_u,w_c)=1-\sigma (Ew_u*Ew_c)=1-\frac{1}{1 + e^{-Ew_u*Ew_c}}$

此时条件概率可以表示为：

$P(w_u|w_c)=P(D=1|w_u,w_c)*\prod_{*\sim P(w)} P(D=0|w_*,w_c)$

此时batch内的loss可以表示为：

$-\sum^B(\sum^{\pm k }_{\pm i}logP(D=1|w_{c+i},w_c)+\sum^h log(P(D=0|w_h,w_c))))$

其中k表示正例的窗口大小，h表示负例数（即不在上下文窗口的词），上述loss函数可以用binary_cross_entropy_with_logits损失函数表示：

$Out = -label * log(\sigma (logits))+(1-label)log(1 - \sigma (logits))$

其中中label表示词是正或负例，logits即为 $Ew_u*Ew_v$ ，因此我们可以设计如下的损失函数代码

class SigmoidBCELoss(nn.Layer):
    # 带掩码的二元交叉熵损失
    def __init__(self):
        super().__init__()

    def forward(self, inputs, label, mask):
        out = nn.functional.binary_cross_entropy_with_logits(
            logit=inputs, label=label, weight=mask, reduction="none")
        return out.mean(axis=1)

整体的paddle训练代码如下：

# 中心词
center_spec = paddle.static.InputSpec([None, 1], 'int64', 'center')
# 上下文正例词及负例词
context_spec = paddle.static.InputSpec([None, max_context_len], 'int64', 'contexts_and_negatives')
# 正例及负例的标识
label_spec = paddle.static.InputSpec([None, max_context_len], 'float32', 'label')
# mask，正例及负例以外的填充为0不参与训练
mask_spec = paddle.static.InputSpec([None, max_context_len], 'float32', 'mask')

model = paddle.Model(Word2Vec(num_embeddings, embedding_dim), [center_spec, context_spec], [label_spec, mask_spec])
model.prepare(
    optimizer=paddle.optimizer.Adam(learning_rate=learning_rate, parameters=model.parameters()),
    loss=SigmoidBCELoss()
)
model.fit(
    train_dataset, 
    valid_dataset,
    batch_size=batch_size,
    epochs=num_epochs, 
    eval_freq=1,
    shuffle=True,
    save_dir=save_model_dir,
    callbacks=[loss_print, vdl_record]
)

全局向量的词嵌入（GloVe）

GloVe主要在原来loss函数中引入了两点特性：

引入全局共现权重， $x_{u,c}$ 表示词u和词c共现的次数，此时全局的损失函数可以表示为：

$-\sum^N_u \sum^N_v x_{u,v} log(P(w_u|w_c))$

重新定义条件概率 $P(w_u|w_c)$ 的计算，条件概率实际表示为 $x_{u,c}/x_c$ ，假设 $P(w_u|w_c)\approx \alpha e^{(Ew_u*Ew_c)}$ ，此时学习目标为：

$\alpha e^{(Ew_u*Ew_c)}-x_{u,c}/x_c=0\Rightarrow Ew_u*Ew_c+log(\alpha)-log(x_{u,c}) + log(x_c)=0$

此时GloVe的损失函数定义为：

$\sum^N_u \sum^N_v h(x_{u,v})(Ew_u*Ew_v+a_u + b_v - log(x_{u,v}))^2$

tostq

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
word2vec的原理以及实现

word2vec是早期NLP的必要预处理过程，其用于生成词的向量表示（embeding）。其将单词映射为固定长度的向量（embeding向量），GloVe主要在原来loss函数中引入了两点特性。
复制链接

扫一扫