DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略

一个处女座的程序猿

已于 2024-04-29 12:22:07 修改

阅读量1.2w

点赞数 5

分类专栏： DL/R NLP/LLMs 精选(人工智能)-中级文章标签：自然语言处理 Attention 自注意力机制

于 2018-10-19 19:50:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/83187158

版权

精选(人工智能)-中级同时被 3 个专栏收录

314 篇文章 1310 订阅 ¥99.90 ¥99.00

订阅专栏

477 篇文章 371 订阅

订阅专栏

388 篇文章 64 订阅

订阅专栏

DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略

目录

Paper：Transformer模型起源—2017年的Google机器翻译团队—《Transformer：Attention Is All You Need》翻译并解读

DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略

DL之self-attention：self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用，适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

2014年9月，《Neural Machine Translation by Jointly Learning to Align and Translate》翻译与解读

2015年8月，《Effective Approaches to Attention-based Neural Machine Translation》翻译与解读

Attention机制的起源与盛行及其在长距离有效的原因

1、Attention的发展：最初源于CV蓬勃发展于NLP

2、Attention的灵感：源于认知神经科学(生物学+心理学+哲学)

3、self-Attention：吊炸天的Attention机制—为什么自注意力模型（self-Attention model）在长距离序列中如此强大？

CNN和RNN的劣势(卷积或循环神经网络难道不能处理长距离序列吗？)→常用的解决办法→选择Attention的原因（FNN和RNN都很强，那么Why Attention？）

Attention的概述

1、背景、本质、与ED框架关系、牛叉原因、模型架构、优缺点、扩展

(1)、对比：Attention机制、Self-Attention机制(不依赖外部信息+探究序列内部的关系→可并行计算+捕获长依赖)

DL之self-attention：self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用，适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

2、Attention算法的背景(机器翻译案例理解)—弥补Encoder-Decoder框架缺点，为解决Encoder-Decoder信息丢失问题而生

3、理解Attention机制—机器翻译案例引入

(1)、必须搞懂中间语义表示Ci的形成过程

(2)、分析Attention概率分布的形成过程

4、Attention本质：探究Attention为何需要通过设计输入三要素(Key、Value、Query)针对“文本序列”任务，实现捕捉长依赖信息+动态聚焦关键词——受到内存寻址机制的启发

4.1、问题描述→数学表述→公式表征：图书馆精准搜书和机器翻译案例来理解Attention原理

4.2、Attention机制的数学模型实现三步骤—通过计算相似性得出权重最后带权求和

4.3、软寻址的思想来理解Attention机制—Attention机制缓解神经网络模型复杂度的体现

5、Attention的几个变种

T1、Soft Attention和Hard Attention

T2、Global Attention和Local Attention

T3、Focus Attention和Saliency-based Attention

Attention机制的变种总结—硬性注意力/键值对注意力/多头注意力

6、self-Attention概述

Attention机制的应用

1.1、机器翻译任务—是Attention机制最成功的应用

1.2、语音识别任务

2、多模态/CV领域

2.1、多模态之图像描述任务

相关文章

Paper：Transformer模型起源—2017年的Google机器翻译团队—《Transformer：Attention Is All You Need》翻译并解读

了解本专栏

一个处女座的程序猿

关注

5
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
1
评论
DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略

DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略目录相关文章《Neural Machine Translation by Jointly Learning to Align and Translate》翻译与解读Attention机制的起源与盛行及其在长距离有效的原因Attention的概述
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。