动手学DL|Task4 机器翻译及其技术+注意力机制与Seq2seq模型+Transformer

最新推荐文章于 2024-08-28 22:22:37 发布

BevnWu

最新推荐文章于 2024-08-28 22:22:37 发布

阅读量375

点赞数

分类专栏： BevnWu的学习栏目

BevanWu所有

本文链接：https://blog.csdn.net/qq_41407979/article/details/104355701

版权

BevnWu的学习栏目专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器翻译及其技术

学习笔记

机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。
主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

Encoder-Decoder

encoder：输入到隐藏状态
decoder：隐藏状态到输出
Image Name

Sequence to Sequence模型

模型：

训练

Image Name

预测

Image Name

具体结构

Image Name

集束搜索 Beam Search

简单greedy search：

Image Name

维特比算法：选择整体分数最高的句子（搜索空间太大）
集束搜索：

Image Name

习题整理

在这里插入图片描述

注意力机制与Seq2seq模型

学习笔记

注意力机制

在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。

与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。例如，当把“Hello world”翻译成“Bonjour le monde”时，“Hello”映射成“Bonjour”，“world”映射成“monde”。在seq2seq模型中，解码器只能隐式地从编码器的最终状态中选择相应的信息。然而，注意力机制可以将这种选择过程显式地建模。

Image Name

注意力机制框架

Attention 是一种通用的带权池化方法，输入由两部分构成：询问（query）和键值对（key-value pairs）。 $k_i∈R^{d_k}, v_i∈R^{d_v}$ . Query $q∈R^{d_q}$ , attention layer得到输出与value的维度一致 $o∈R^{d_v}$ . 对于一个query来说，attention layer 会与每一个key计算注意力分数并进行权重的归一化，输出的向量 $o$ 则是value的加权求和，而每个key计算的权重与value一一对应。

为了计算输出，我们首先假设有一个函数 $\alpha$ 用于计算query和key的相似性，然后可以计算所有的 attention scores $a_1, \ldots, a_n$ by

$a_i = \alpha(\mathbf q, \mathbf k_i).$

我们使用 softmax函数获得注意力权重：

$b_1, \ldots, b_n = \textrm{softmax}(a_1, \ldots, a_n).$

最终的输出就是value的加权求和：

$\mathbf o = \sum_{i=1}^n b_i \mathbf v_i.$

Image Name

不同的attetion layer的区别在于score函数的选择，在本节的其余部分，我们将讨论两个常用的注意层 Dot-product Attention 和 Multilayer Perceptron Attention；随后我们将实现一个引入attention的seq2seq模型并在英法翻译语料上进行训练与测试。

待续