Seq2Seq -- Attention -- Transformer

最新推荐文章于 2024-06-05 10:27:35 发布

茵茵的聪聪

最新推荐文章于 2024-06-05 10:27:35 发布

阅读量2.5k

点赞数 2

分类专栏： NLP与tensorflow学习文章标签： Transformer Attention Seq2Seq NLP

本文链接：https://blog.csdn.net/qq_36153312/article/details/88770856

版权

Seq2Seq – Attention – Transformer

文章目录

- Seq2Seq -- Attention -- Transformer

1.前言

Transformer是谷歌在2017年的论文 Attention Is All You Need 中提出的一种模型，可以很好地处理序列相关的问题，如机器翻译。在此之前，对于机器翻译问题一般使用CNN或RNN作为encoder-decoder的模型基础，如使用RNN的Seq2Seq模型。

机器翻译一些模型的提出过程如下^[3]：
在这里插入图片描述

RNN对于序列问题有很好的效果，最早是使用基于RNN的Seq2Seq模型处理机器翻译问题，但其序列循环使得在训练时非常缓慢
Facebook将Seq2Seq的RNN替换成CNN，用多个CNN叠加放大上下文，刷新了两项翻译任务记录，并将训练速度大大提高
Transformer基于Attention机制实现，没有使用CNN或RNN结构，可高度并行，训练快，准确率高

本文将通过对Seq2Seq模型、Attention模型的简单介绍，引入并重点介绍Transformer模型，加深自己对各个模型的理解。

2.Seq2Seq模型

Seq2Seq模型，Sequence-to-Sequence，即序列到序列的过程。

典型的Seq2Seq模型如下，包含编码器Encoder和解码器Decoder两个部分。

Encoder是一个RNN/LSTM模型，将输入的句子编码得到context vector，即
$C=F(x_1,x_2,...,x_m)\tag{1}$
Decoder是Encoder的逆过程，每个状态由之前的状态和context vector决定，即
$y_i=G(C,y_1,y_2,...,y_{i-1})\tag{2}$
在这种模型下，所有输入被压缩在一个向量中，导致——

无法表达序列信息
当句子长度较大时，容易丢失信息

3.Attention模型

3.1简介

2015年提出的Attention模型，使用多个context vector，有效地解决了使用Seq2Seq模型难以处理长句子的问题。

注意力机制（Attention Mechanism）源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。

在机器翻译中，注意力机制衡量输出单词与每个输入单词的关联程度，关联程度更大的输入单词具有更大的权重，使得输出单词可以更关注其对应的语义。比如，当翻译 I eat an apple 时，输出 吃 时应该重点关注 eat 这个单词，即eat的权重应该比其他单词更高。

3.2模型架构

最先的Attention模型^[5]架构如下：

输入：待翻译的句子
Encoder：双向的RNN或LSTM，计算得到每个位置的隐状态，下面只用 $h_i$ 表示
Decoder：对当前输出位置 $t$ ，使用上一个隐状态 $s_{t-1}$ 与Encoder的结果计算，如下：
- 衡量输出位置 $i$ 与输入位置 $j$ 之间的匹配程度， $a$ 可以是点积或其他运算——
$e_{ij}=a(s_{i-1},h_j)\tag{3}$

最低0.47元/天解锁文章

茵茵的聪聪

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Seq2Seq -- Attention -- Transformer

Seq2Seq – Attention – Transformer文章目录Seq2Seq -- Attention -- Transformer1.前言2.Seq2Seq模型3.Attention模型3.1简介3.2模型架构3.3其他4.Transformer4.1为什么使用Transformer？4.2模型架构4.2.1 Self-Attention4.2.2 Multi-headed Att...
复制链接

扫一扫