CV学习笔记

最新推荐文章于 2024-09-14 19:18:15 发布

WadeQyx

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量170

点赞数

分类专栏： Vision Transformer 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43390051/article/details/117091197

版权

Vision Transformer 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Layer Normalization

motivation

深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化
层层叠加，高层的输入分布变化会非常剧烈，使得高层需要不断去重新适应底层的参数更新

公式

$h=\alpha\frac{x-\mu}{\sigma}+\beta$

作用

规范优化空间，保证数据特征分布的稳定性（前向传播的输入分布变得稳定，后向的梯度更加稳定）
通过对层的激活值的归一化，可以加速模型收敛
对单个训练样本进行，不依赖于其他数据进行归一化

Transformer

优缺点

优点：

相比CNN，计算两个位置之间的关联所需的操作次数不随距离增长（任意两个单词的距离变成1）
突破了RNN模型不能并行计算的限制，特征抽取能力比RNN系列的模型要好
全局信息的有效处理

缺点：
4. 序列较长时，计算耗时严重
5. Transformer需要一种方式来表示序列中元素的相对或绝对位置关系
6. Transformer模型缺乏归纳偏置 inductive bias能力，在数据不足时无法很好地泛化到新任务上，不具备像CNN那样的平移不变性和局部性
7. 丧失了捕捉局部特征的能力