DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略
目录
Paper:Transformer模型起源—2017年的Google机器翻译团队—《Transformer:Attention Is All You Need》翻译并解读
DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略
DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略
2014年9月,《Neural Machine Translation by Jointly Learning to Align and Translate》翻译与解读
2015年8月,《Effective Approaches to Attention-based Neural Machine Translation》翻译与解读
2、Attention的灵感:源于认知神经科学(生物学+心理学+哲学)
3、self-Attention:吊炸天的Attention机制—为什么自注意力模型(self-Attention model)在长距离序列中如此强大?
CNN和RNN的劣势(卷积或循环神经网络难道不能处理长距离序列吗?)→常用的解决办法→选择Attention的原因(FNN和RNN都很强,那么Why Attention?)
1、背景、本质、与ED框架关系、牛叉原因、模型架构、优缺点、扩展
(1)、对比:Attention机制、Self-Attention机制(不依赖外部信息+探究序列内部的关系→可并行计算+捕获长依赖)
DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略
2、Attention算法的背景(机器翻译案例理解)—弥补Encoder-Decoder框架缺点,为解决Encoder-Decoder信息丢失问题而生
4、Attention本质:探究Attention为何需要通过设计输入三要素(Key、Value、Query)针对“文本序列”任务,实现捕捉长依赖信息+动态聚焦关键词——受到内存寻址机制的启发
4.1、问题描述→数学表述→公式表征:图书馆精准搜书和机器翻译案例来理解Attention原理
4.2、Attention机制的数学模型实现三步骤—通过计算相似性得出权重最后带权求和
4.3、软寻址的思想来理解Attention机制—Attention机制缓解神经网络模型复杂度的体现
T1、Soft Attention和Hard Attention
T2、Global Attention和Local Attention
T3、Focus Attention和Saliency-based Attention
Attention机制的变种总结—硬性注意力/键值对注意力/多头注意力