动手学深度学习（MXNet）6：自然语言处理

最新推荐文章于 2024-08-24 15:03:42 发布

CopperDong

最新推荐文章于 2024-08-24 15:03:42 发布

阅读量357

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/QFire/article/details/100654264

版权

深度学习专栏收录该内容

64 篇文章 8 订阅

订阅专栏

本章中，根据输入与输出的不同形式，按”定长到定长“、”不定长到定长“，”不定长到不定长“的顺序，逐步展示在自然语言处理中如何表征并变换定长的词或类别以及不定式的句子或段落序列。

词嵌入（word2vec）

把词映射为实数域向量的技术也叫词嵌入（word embedding）。

为何不采用one-hot向量

跳字模型：训练通过最大化似然函数来学习模型参数，即最大似然估计。这等价于最小化以下损失函数：

如果使用随机梯度下降，那么在每一次迭代里我们随机采样一个较短的子序列来计算有关该子序列的损失，然后计算梯度来更新模型参数。梯度计算的关键是条件概率的对数有关中心词向量和背景词向量的梯度。

vc的梯度

近似训练

由于softmax运算考虑了背景词可能是词典V中的任一词，以上损失包含了词典大小数目的项的累加。对于含上百万词的较大词典，每次的梯度计算开销可能过大。为了降低该计算复杂度，本节将介绍两种近似训练方法，即负采样（negative sampling）或层序softmax（hierarchical softmax）。

负采样：修改了原来的目标函数，给定中心词Wc的一个背景窗口，我们把背景词Wo出现在该背景窗口看作一个事件，并将该事件的概率计算为：D=1表示去正样本

其中σ函数与sigmoid函数的定义相同。则给定一个长度为T的文本序列，窗口大小为m，最大联合概率为：

以上的联合概率最大化为1时，所有词向量相等且值为无穷大。这样的词向量毫无意义。

负采样通过采样并添加负类样本使目标函数更有意义。根据分布P(w)采样K个未出现在该背景窗口中的词，即噪声词。

其中条件概率被近似表示为：

现在，训练中每一步的梯度计算开销不再与词典大小相关，而是与K线性相关。当K取较小的常数时，负采样在每一步的梯度计算开销较小。

层序softmax

层序softmax是另一种近似训练法。它使用了二叉树，树的每个叶结点代表词典V中的每个词。

假设L(w)为根结点到词w的叶结点的路径上的结点数。设n(w,j)为该路径上第j个结点。层序softmax将跳字模型中的条件概率近似表示为：

Word2vec的实现

使用PTB语料库

子词嵌入（fastText）

英语单词通常有其内部结构和形成方式。例如dog, dogs和dogcatcher的字面上推测它们的关系。

word2vec并没有直接利用构词学中的信息。它将dog和dogs分别用两个不同的向量表示。

鉴于此，fastText提出了子词嵌入的方法，试图将构词信息引入word2vec中的跳字模型。

在fastText中，每个中心词被表示成子词的集合。以单词”where“为例，在前后加入”<>“对其进行字符级的n元语法，如n=3时，"<wh"、"whe","ere","re>"以及特殊子词“<where>”。

在fastText中，对于一个词w，将它所有长度在3~6的子词和特殊子词的并集记为。那么词典则是所有词的子词集合的并集。假设词典中子词g的向量为Zg，那么跳字模型中词w的作为中心词的向量Vw则表示成

fastText的其余部分同跳字模型一致，不在此重复。可以看到，与跳字模型相比，fastText中词典规模更大，造成模型参数更多，同时一个词的向量需要对所有子词向量求和，继而导致计算复杂度更高。但与此同时，较生僻的复杂单词，甚至是词典中没有的单词，可能会从同它结构类似的其他词那里获取更好的词向量表示。