吴恩达深度学习笔记-NLP & Word Embeddings(第14课)

最新推荐文章于 2023-05-07 13:32:29 发布

白色的生活

最新推荐文章于 2023-05-07 13:32:29 发布

阅读量1k

点赞数 1

分类专栏：吴恩达深度学习文章标签：深度学习自然语言处理人工智能

本文链接：https://blog.csdn.net/GuoShao_/article/details/126436954

版权

吴恩达深度学习专栏收录该内容

14 篇文章 7 订阅

订阅专栏

NLP & Word Embeddings

一、词汇表征
二、使用词嵌入
三、词嵌入的特性
四、词嵌入矩阵
五、学习词嵌入
六、Word2Vec
七、负采样
八、GloVe词向量
九、情绪分类
十、词嵌入去除偏见

参考博文：红色石头Will

一、词汇表征

之前的单词都是使用one-hot编码进行表示，one-hot表征单词的最大缺点是每个单词都是独立、正交的，不能知道单词之间的相似程度。

例如：
I want a glass of apple____
Iwant a glass of Orange ____
也许语言模型能够找到下一个单词是juice，但是不能学习到apple和Orange都是水果，词性相近;即学习到apple后面是juice，但是算法泛化能力差，不能推出与apple相近的orange后面也应该是juice。

在NLP中，希望算法能够掌握不同单词之间的相似程度，提高算法泛化能力。

因此，可以使用特征表征方式对单词进行编码。即使用一些列的features对单词进行量化，使用特征向量表示单词，如下图：
在这里插入图片描述
【有点类似协同过滤中电影特征的描述】
Apple和orang词性相近，所以在数值上会比较相近。在学习下面两句话时，可以根据这两个单词距离较近，通过第一句话的学习泛化到第二句话上。
I want a glass of apple____
Iwant a glass of Orange ____

特征表征方式也叫做词嵌入，直观理解就是：假设使用300个feature来量化单词，apple就会被嵌入到300维空间的某一位置，orange也会被嵌入到300维空间的某个位置，这两个单词在300维空间上的位置也许比较靠近。

二、使用词嵌入

使用特征表征方式(featurized representation)对单词编码，并构造RNN模型用于寻找句子中的人名。如下图：
在这里插入图片描述
通过学习第一句话，可以得到前面两个是人名；当我们测试第二句话时，因为apple和orange词性相近，所以也能得出这个句子前面的是人名。可以看出featurized representation优点是可以减少训练样本数目，并且使用更低维度的、更紧凑的向量来描述单词。

若句子最后两个单词是陌生单词(训练集没有这个单词)Durian cultivator(榴莲培育家)，但是如果已经有了一个已经学习好的词嵌入，它会告诉你这个词组与apple farmer词性接近；这样即使训练集样本很少，也可以学习到Durian cultivator前面对应的是个人名。
这就是迁移学习的魅力，把从互联网上免费获得的大量无标签文本中学习到的知识(能够分辨Durian 、apple、orange都是水果的知识)迁移到姓名识别的任务里。

featurized representation的特性使得很多NLP任务能方便地进行迁移学习。迁移学习流程：

从海量词汇库中学习词嵌入(word embeddings)，或者从网上下载训练好的词嵌入。
使用较少的训练样本，将词嵌入迁移到新的任务中取
(可选)继续使用新数据微调词嵌入

建议仅当训练样本足够大的时候，再进行上述第三步。

词嵌入和人脸识别很像，不太一样的地方是人脸图片是不固定的，可以是数据库之外的。但是词嵌入中的单词都是固定的，当出现vocabulary之外的单词会用<UNK>表示。
在这里插入图片描述

三、词嵌入的特性

词嵌入可以帮我们找到不同单词之间的类似关系，如下图：
在这里插入图片描述
在人类常识中，“Man”和“Woman”的关系类似于“King”和“Queuen”的关系。利用词嵌入就能找到这种对应的类比关系。
将“Man”和“Woman”特征向量进行相减：

$e_{man}-e_{woman}=\begin{bmatrix} -1 \\ 0.01 \\0.03\\0.09 \end{bmatrix}-\begin{bmatrix} 1 \\ 0.02 \\0.02\\0.01 \end{bmatrix}≈\begin{bmatrix} -2 \\ 0 \\0\\0 \end{bmatrix}$

相同的操作给到“King”和“Queuen”：
$e_{King}-e_{Queuen}=\begin{bmatrix} -0.95 \\ 0.93 \\0.70\\0.02 \end{bmatrix}-\begin{bmatrix} 0.97 \\ 0.95 \\0.69\\0.01 \end{bmatrix}≈\begin{bmatrix} -2 \\ 0 \\0\\0 \end{bmatrix}$

可以看到计算出来的结果是比较类似的，直观的感受是这两个词之间都是存在性别上的差异，所以第一个feature值特别大，其他feature特别小。

因此，A类比于B相当于C类比于“?”，这种问题可以使用词嵌入解决。

上面的问题就是寻找某个单词与"King"的关系，就想“Man”和“Woman”之间的关系一样，列出等式：
$e_{man}-e_{woman}≈e_{king}-e_{?}$

则 $e_{?}≈e_{king}+e_{woman}-e_{man}$

利用相似函数，问题变成找到与 $e_{king}+e_{woman}-e_{man}$ 最相似的 $e_{?}$ ；

常用的相似函数是余弦相似度函数(cosine similarity)，表达式为：

$Sim(u,v)=\frac{u^T\cdot v}{||u||⋅||v||}$
这个式子的值就是向量 $u$ 和 $v$ 之间夹角的余弦值。 $u$ 和 $v$ 夹角越小，值就越大( $cos 0 = 1$ )

当然也可以使用欧式距离来计算相似度，即 $u−v||^2$ ，距离越大，相似性越小。

四、词嵌入矩阵

若某个词汇库包含了1000个单词，每个单词的特征维度是300；那么这个词嵌入矩阵维度是300x1000，用 $E$ 来表示这个矩阵。然后用 $O$ +索引下标来表示one-hot编码，如下图所示：
在这里插入图片描述
我们想要提取orange的特征向量，用 $E$ 乘于 $O_6253$ 即可：
$E_{300\times10K}\cdot O_{6257}= \begin{bmatrix} … \\…\\ \end{bmatrix}_{300\times 1}=e_{6257}$

但是效率不高，有很多的0乘运算。通常做法是直接从 $E$ 中选取第 $w$ 列作为 $e_w$ 即可。

五、学习词嵌入

词嵌入矩阵 $E$ 可以通过构建自然语言模型，运用梯度下降算法得到。

如我们的训练样本是下面这句话：

$I\ want\ a\ glass\ of\ orange\ \underset{—————}{(juice)}.$

想要预测单词是juice。 $E$ 是未知的，这几个单词的嵌入向量都可以使用 $E$ 和 $o_w$ 计算出来；我们为了学习词嵌入矩阵构建了下图的自然语言模型：
在这里插入图片描述
这个模型中 $E、W^{[1]}、b^{[1]}、W^{[2]}、b^{[2]}$ 都是需要学习的参数。softmax层有10000个概率输出，与词汇表包含的单词数目一致。要求正确的输出label是“juice”，所以要通过反向传播修改参数 $E、W^{[1]}、b^{[1]}、W^{[2]}、b^{[2]}$ 。当有足够的训练样本，就可以通过优化算法学习出嵌入矩阵 $E$ 了。

未来保证神经网络输入维度固定，可以设置一个超参数：窗口值；窗口值指的是只看几个单词就进行预测。

如我们设置窗口值为4，只看前面4个单词即可：

$context：a\ glass\ of\ orange$
$t a r g e t ： j u i ce$

$co n t e x t$ 选择多种多样：

1. target的前/后4个词
1. 只看target附近的的1个词，如只看 $g l a ss$
1. 只看target的前一个词，如只看 $or an g e$

如果想要构建自然语言模型，一般选取目标词的前几个单词作为 $co n t e n t$ ；
若目标是学习 $E$ ，那么其他的 $co n t e x t$ 选取方式都能得到不错的嵌入矩阵 $E$ 。

六、Word2Vec

下面介绍Skip-Gram模型：

以下面这个句子为例：
I want a glass of orange juice to go along with my cereal.

Skip-Gram模型做的是：
先随机选取一个单词作为 $co n t e x t$ ，比如选择了 $or an g e$ ；然后自定义一个范围，比如±10，在这个范围内随机选取一个单词作为 $co n t e x t$ ，可以是 $j u i ce 、 g l a ss$ 或者是 $m y$ ，假设选取的是 $j u i ce$ 。这样就构建了从 $or an g e$ 到 $j u i ce$ 的监督学习样本。

采用上节课的自然语言模型，经过softmax层的输出为：
$P(target|context)=\hat{y}=\frac{e^{θ^T_{t}\cdot e_c}}{\sum^{10000}_{j=1}e^{θ^T_{j}\cdot e_c}}$

$θ^T_{t}$ 表示为 $t a r g e t$ 的参数
$e_c$ 表示为 $co n t e n t$ 的嵌入向量
$e_c=E\cdot o_c$

对应损失函数为：
$L(\hat{y},y)=-\sum\limits_{i=1}^{10000} {y_i\cdot log \hat{y}_i}$

优化这个损失函数，就会得到一个不错的词嵌入举证 $E$ 。

但是在计算 $\hat{y}$ 的时候，softmax的输出是10000个，所以分母计算量很大。解决的方式之一是使用hierarchical softmax classifier(分层softmax分类器)；即在输出的时候采用二分类的方式逐层找到输出的值。分层softmax分类器输出可以如下图所示，一般是哈夫曼树：
在这里插入图片描述

Skip-Gram模型中随机采样的缺点：
the、of、a等此类单词出现频率高，因此会有很多时间都花在这些常用词身上，我们更希望能够花时间在apple、juice、orange这些词上。实际应用中，一般不选择随机均匀采样的方式来选择context，而是使用其它算法来处理这类问题。

七、负采样

Negative sampling(负采样)是另一种有效求解 $E$ 的方法。

它做法是选取一个正样本对，其label设置为y=1；如选取“orange”作context 、“juice”作target ；再选取k个负样本对，其label设置为y=0；如下图所示：

在这里插入图片描述
一般k的选取要满足：

若训练样本较小，k一般选择5～20；
若训练样本较大，k一般选择2～5即可。

接下来将原来的softmax的10000个输出看作是10000个二分类问题，使用sigmoid的就能解决。
则这10000个二分类输出的值含义为：
$P(y=1|c,t)=σ(θ^T_t⋅e_c)$
即当选定 $co n t e n t$ 和 $t a r g e t$ 时，y=1的概率。
在训练时，只更新这k+1个二分类问题分支，其余10000-(k+1)节点不管。negative sampling转化为k+1个二分类问题，计算量要小很多，大大提高了模型运算速度。

如何随机抽取负样本？
可以根据单词出现的频率进行选择，单词抽取概率公式为：
$P(w_i)=\frac{f(w_i)^{\frac{3}{4}}}{\sum ^{10000}_jf(w_i)^{\frac{3}{4}}}$

$f(w_i)$ 为单词 $w_i$ 出现的频率。

八、GloVe词向量

【没听懂，待完善，此部分来自红色石头Will博客】

GloVe算法引入了一个新的参数：

$X_{ij}$ : 表示i出现在j之前的次数，即i和j同时出现的次数。

其中，i表示context，j表示target。一般地，如果不限定context一定在target的前面，则有对称关系 $X_{ij}=X_{ji}$ ；如果有限定先后，则 $X_{ij}≠X_{ji}$ 。接下来的讨论中，我们默认存在对称关系 $X_{ij}=X_{ji}$ 。

GloVe模型的loss function为：

$L=\sum\limits_{i=1}^{10000} \sum\limits_{j=1}^{10000} {(θ^T_ie_j−logX_{ij})^2}$

从上式可以看出，若两个词的embedding vector越相近，同时出现的次数越多，则对应的loss越小。

为了防止出现“log 0”，即两个单词不会同时出现，无相关性的情况，对loss function引入一个权重因子 $f(X_{ij})$ ：
$L=\sum\limits_{i=1}^{10000} \sum\limits_{j=1}^{10000} {f(X_{ij})(θ^T_ie_j−logX_{ij})^2}$