Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

最新推荐文章于 2021-12-13 12:32:53 发布

邦戈栗子

最新推荐文章于 2021-12-13 12:32:53 发布

阅读量385

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/qq_42189368/article/details/104381104

版权

pytorch 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

课程地址：

https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/video/Rosi4tliobRSKaSVcsRx_

Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer（1天）

机器翻译

机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

主要步骤：

数据预处理（清洗数据集;转化为神经网络输入minbatch）
分词(字符串---单词组成的列表)
建立词典(单词组成的列表---单词id组成的列表)

ps:

\xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表不间断空白符nbsp(non-breaking space)，超出gbk编码范围，是需要去除的特殊字符。

注意力机制与Seq2seq模型

Seq2seq

RNN最重要的一个变种：N vs M。这种结构又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型。

原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。

为此，Encoder-Decoder结构先将输入数据编码成一个上下文向量c：

得到c有多种方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。

拿到c之后，就用另一个RNN网络对其进行解码，这部分RNN网络被称为Decoder。具体做法就是将c当做之前的初始状态h0输入到Decoder中：

还有一种做法是将c当做每一步的输入：

Encoder-Decoder结构不限制输入和输出的序列长度，因此应用的范围非常广泛。

注意力机制

在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征c再解码，因此， c中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个c可能存不下那么多信息，就会造成翻译精度的下降。

Attention机制通过在每个时间输入不同的c来解决这个问题，下图是带有Attention机制的Decoder：

每一个c会自动去选取与当前所要输出的y最合适的上下文信息。

神经网络中的注意力机制（Attention Mechanism）是在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案。在神经网络学习中，一般而言模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。那么通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

举例：

Transformer

CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。
RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。

为了整合CNN和RNN的优势，[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的tokens，上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。

Transformor与seq2seq模型的区别：

Transformer blocks：将seq2seq模型重的循环网络替换为了Transformer Blocks，该模块包含一个多头注意力层（Multi-head Attention Layers）以及两个position-wise feed-forward networks（FFN）。对于解码器来说，另一个多头注意力层被用于接受编码器的隐藏状态。
Add and norm：多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理，该层包含残差结构以及层归一化。
Position encoding：由于自注意力层并没有区分元素的顺序，所以一个位置编码层被用于向序列元素里添加位置信息。

参考：

https://zhuanlan.zhihu.com/p/56704058

https://www.jianshu.com/p/1f1a73d8b684

https://www.cnblogs.com/Luv-GEM/p/10712256.html

https://zhuanlan.zhihu.com/p/106867810

邦戈栗子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

课程地址： https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/video/Rosi4tliobRSKaSVcsRx_Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer（1天）...
复制链接

扫一扫