深度学习相关知识

墨九南烟

已于 2023-02-21 14:21:13 修改

阅读量283

点赞数 1

分类专栏：深度学习文章标签：深度学习机器学习人工智能

于 2022-09-26 09:16:56 首次发布

本文链接：https://blog.csdn.net/qq_44157281/article/details/127047280

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

此为个人学习笔记，如有侵权，请联系删除

Attention

1、目的：Attention利用有限的注意力资源从大量信息中快速筛选出高价值信息（或者说是对当前任务目标更关键的信息）

2、注意力模型可以看作一种通用的思想，本身并不依赖于特定框架，目前大部分注意力机制都附着在Encoder-Decoder框架下，加入Attention机制的E-D模型就是把中间语义量身定制了，每个都不一样

3、Attention的求解：第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。而第一个过程又可以细分为两个阶段：第一个阶段根据Query和Key计算两者的相似性或者相关性；第二个阶段对第一阶段的原始分值进行归一化处理

4、Self Attention：可以捕获同一个句子中单词之间的一些句法特征或者语义特征，比如RNN或者LSTM中距离长可能语义就会丢失，而Self Attention可以轻松解决。Self Attention对于增加计算的并行性也有直接帮助作用

一、Paper：《Recurrent Models of Visual Attention》
二、Blog：深度学习中的注意力模型（2017版）

Transformer

1、残差链接：通常用于解决多层网络训练的问题，可以让网络只关注当前差异的部分。
Skip connect的作用：（1）残差连接可以降低模型复杂度以减少过拟合（2）残差连接可以防止梯度消失
Skip connect的思想：将输出表述为输入和输入的一个非线性变换的线性叠加，没用新的公式，没有新的理论，只是换了一种新的表达。Y = H(x,WH) + X
2、Transformer的作用：基于Transformer的架构主要用于建模语言理解任务，它避免了在神经网络中使用递归，而是完全依赖于self-attention机制来绘制输入和输出之间的全局依赖关系。