笔记(总结)-注意力机制(Attention)简述

最新推荐文章于 2024-06-01 08:21:23 发布

ZSYGOOOD

最新推荐文章于 2024-06-01 08:21:23 发布

阅读量3.7k

点赞数 2

分类专栏： MasterWork-UCAS 科研|算法|论文机器学习相关笔记长篇文章标签：注意力 Attention Seq2seq Encoder-Decoder 机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BitCs_zt/article/details/81126408

版权

本篇主要针对注意力（Attention）机制进行简要描述。Attention是为了解决Sequence-to-Sequence中的一些问题而提出的，本身的逻辑十分简洁。Attention的产生过程反映了解决问题的一种最直接的思路，正如Resnet中提出“残差”的概念一样，简单直接的就能解决问题，而且思路没有绕任何弯子。这在科研工作中是十分难得的。下面结合机器翻译问题来回顾下这整个过程。

Seq2seq

先回顾下Sequence-to-Sequence，这是RNN-Based模型架构中错开的many to many的一种应用，主要是为了将一个序列转换为另一个序列，即下图中第四种：
这里写图片描述

这种架构也叫Encoder-Decoder模型。具体来说，Encoder部分为红色block及对应的绿色block，Decoder部分为蓝色block及对应的绿色block。Seq2sep主要想解决的是输入输出序列不等长的问题，它通过Encoder将输入序列编码成一个固定的向量 $c$ ，然后将 $c$ 作为Decoder的初始隐状态输入，解码为输出序列。即：

但这样的架构是有问题的。主要有两点：

Encoder将所有输入序列编码成一个统一的语义特征 $c$ ，再将其运用到Decoder中。这就要求 $c$ 必须能很好地概括输入序列，然而RNN模型是有长度依赖的，当序列过长时难以概括所有信息。
不同的Decoder输出使用的是同样的 $c$ ，但实际中并非如此。以机器翻译为例，翻译目标词的第一个词往往和源语言中第一个词有较大的关联，而不太关心其它位置的词。Decoder中不同的输出需要的是不同的输入特征，且不一定需要编码了整个输入序列的 $c$ 。

因此，最理想的情况是，在解码输出不同的词时，能够从输入序列中自动选择相关联的词，并且提高这部分词在建模时的特征权重。这样就得出了Attention Model的动机。

Attention Mechanism

由上文Seq2seq的缺陷可以知道，要解决第一个问题，即Decoder使用的是统一的 $c$ ，需要在不同的时刻输入不同的 $c_i$ ；要解决第二个问题，即Decoder不同时刻的输出关注输入序列的不同部分，需要 $c_i$ 能自动选取最相关的输入序列。

最低0.47元/天解锁文章

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
笔记(总结)-注意力机制(Attention)简述

本篇主要针对注意力（Attention）机制进行简要描述。Attention是为了解决Sequence-to-Sequence中的一些问题而提出的，本身的逻辑十分简洁。Attention的产生过程反映了解决问题的一种最直接的思路，正如Resnet中提出“残差”的概念一样，简单直接的就能解决问题，而且思路没有绕任何弯子。这在科研工作中是十分难得的。下面结合机器翻译问题来回顾下这整个过程。Se...
复制链接

扫一扫

专栏目录

博客等级

码龄9年

94
原创

43
点赞

120
收藏

113
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文列表——EMNLP 2018
Tisfy: 看完楼主的帖子，我的心情竟是久久不能平复，正如老子所云：大音希声，大象希形。
笔记(总结)-注意力机制(Attention)简述
wmmmyyyyyy: 博主写的很好，谢谢分享
考研（保研）之路-面试
李霁明: 博主你好，我是20报考信工的学生，我能加下你QQ或微信咨询下吗？
考研之路-夏令营参加
knsgb 回复 ZSYGOOOD: 学长名字不是我qq号，我的qq是429384379
考研之路-夏令营参加
ZSYGOOOD 回复 knsgb: 同学，你名字是你的qq号么？我加你吧，三年过去了很多情况也发生了变化

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。