NLP学习笔记（二）

最新推荐文章于 2024-04-02 18:25:16 发布

WitheredSakura_

最新推荐文章于 2024-04-02 18:25:16 发布

阅读量901

点赞数

分类专栏：深度学习文章标签：自然语言处理学习笔记人工智能机器学习

本文链接：https://blog.csdn.net/m0_74036684/article/details/131449853

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章介绍了负采样在word2vec中的作用，通过引入负样本解决梯度下降的稀疏性问题。接着，讨论了GloVe模型，它利用全局语料库统计信息，改进了词与词之间的关系建模，以学习更准确的词向量。此外，还提出了参数初始化、下游任务处理等方面的挑战和解决方案。

摘要由CSDN通过智能技术生成

文章目录

（一）负采样

首先我们回顾一下之前所学word2vec模型的条件概率公式：
$P(w_o|w_c)=\frac{exp(u_o^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}$
注意到每次计算条件概率，我们都需要遍历一次语料库，以求将条件概率值压至 $(0, 1)$ 范围内。

这样做的开销是巨大的；同时，因为我们只更新窗口中出现过的词向量表示，所以反向传播计算的巨大的梯度矩阵具有严重的稀疏性问题（大量资源被浪费掉）。

我们尝试对这一概率公式进行优化。

当前模型优化的目的是使中心词向量 $v$ 和上下文词向量 $u$ 共现概率尽可能的大，我们发现下面的公式也可以很好的表示这一目的：
$P(D=1|w_c,w_o)=\sigma(u_o^Tv_c)\\ \sigma(x)=\frac1{1+exp(-x)}$
但很快我们就会发现一个问题：调整公式之后模型优化的方向，是试图使每一个词向量变为无穷大，这显然没有任何意义。

为了使目标函数更有意义，负采样添加了为条件概率公式添加了负样本 $w_k$ ：
$P(w_o|w_c)=P(D=1|w_c,w_o)\prod^k{P(D=0|w_c,w_k)}$
对于上述公式，上下文词 $w_o$ 是与中心词 $w_c$ 共现的正样本，噪声词 $w_k$ 是与中心词 $w_c$ 不共现的负样本。模型优化的方向是使正样本共现概率尽可能的大，负样本的共现概率尽可能的小。

现在，我们进行反向传播时不需要再去计算整个语料库的梯度矩阵，只需要计算正负样本的梯度然后更新即可，很好地解决了稀疏性问题。

以下是负采样实现代码：

def get_negatives(all_contexts, vocab, counter, k):
    """
        返回负采样中的噪声词
        :param k 噪声词数量
        :param all_contexts 二维列表，所有中心词对应的上下文（必须数字化，否则无法比较噪声词和上下文词）
        :param counter 词频统计数据
        :param vocab 词典
        :return all_negatives 二维列表，所有中心词对应的噪声词
    """
    sampling_weights = [counter[vocab.idx2token[i]] ** 0.75  # 采样频率=词频 ** (3/4)
                        for i in range(1, len(vocab))]  # 索引为0的是被排除的未知标记
    all_negatives, generator = [], RandomGenerator(sampling_weights)
    for contexts in all_contexts:
        negatives = []  # 每个上下文词对应的k个噪声词
        while len(negatives) < len(contexts) * k:
            neg = generator.draw()
            if neg not in contexts:  # 噪声词不能是上下文词
                negatives.append(neg)
        all_negatives.append(negatives)
    return all_negatives

The,a等高频词并不会给我们带来很多信息，但人们没有发现到底词频（概率）多小才算好。

所以我们在进行负采样时，将原词频分布以函数 $f(x)=x^{\frac34}$ 处理得到采样词频，以期减少高频词的采样。

（二）GloVe

1.带全局语料库的跳元模型

我们用共现矩阵累计窗口中出现的词的次数：

在这里插入图片描述

使用这样的全局语料库统计，跳元模型的损失函数变为：
$-\sum_{i\in V}\sum_{j\in V}{x_{ij}}\ log\ q_{ij}$
其中 $q_{ij}$ 表示 $w_i$ 与 $w_j$ 的共现概率；而 $x_{ij}$ 表示 $w_i$ 作为中心词时， $w_j$ 与其共现的次数。

有了全局语料库的辅助，上述损失函数优化出的词向量表示的条件分布会更加接近全局语料库统计中的条件分布。

2.GloVe模型

GloVe建立损失函数的思想与跳元模型有些不同。

基础此前的了解，我们知道优化的目标是使出现在同一上下文窗口中的两个词元 $w_i$ 和 $w_j$ 共现的概率 $p_{ij}$ 尽可能的大。

那么对于任意三个词元 $w_i,w_j,w_k$ ，其中中心词 $w_i$ ，上下文词 $w_j,w_k$ ：

（1）当两个上下文词均与中心词相关时（如water,ice,steam)，有 $\frac{p_{ij}}{p_{ik}}$ 接近于1；

（2）当 $w_i$ 与 $w_j$ 相关，而 $w_i$ 与 $w_k$ 无关时（如water,ice,fashion)，有 $\frac{p_{ij}}{p_{ik}}$ 大于1。

对这种关系进行建模，可以有效解决跳元模型中，稀有词向量被赋予过大的权重问题。

利用这种思想，GloVe模型进一步学习词与词之间的关系信息。
$f(w_i,w_j,w_k)=\frac {p_{ij}}{p_{ik}}$
因为这一比值是标量，并且有 $f(w_i,w_j,w_k)f(w_i,w_k,w_j)=1$ ，使用余弦相似度和 $e x p (x)$ 对其进行建模。
$f(w_i,w_j,w_k)=\frac{\alpha\ exp(w_i^Tw_j)}{\beta\ exp(w_i^Tw_k)}$
其中 $\alpha,\beta$ 是常数。
$\alpha\ exp(w_i^Tw_j)=p_{ij}$
代入 $p_{ij}=\frac{x_{ij}}{x_i}$ ，等式两侧取对数：
$log\ \alpha-log\ x_i+w_i^Tw_j=log\ x_{ij}$
用两个标量模型参数来拟合 $log\ \alpha-log\ x_i$ ：
$w_i^Tw_j+b_i+c_i=log\ x_{ij}$
使用加权平方损失：
$-\sum_{i\in V}\sum_{j\in V}{h(x_{ij})(w_i^Tw_j+b_i+b_j)^2}$
其中 $h(x_{ij})$ 是权重函数。