CV学习笔记

Layer Normalization

motivation

  1. 深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化
  2. 层层叠加,高层的输入分布变化会非常剧烈,使得高层需要不断去重新适应底层的参数更新

公式

h = α x − μ σ + β h=\alpha\frac{x-\mu}{\sigma}+\beta h=ασxμ+β

作用

  1. 规范优化空间,保证数据特征分布的稳定性(前向传播的输入分布变得稳定,后向的梯度更加稳定)
  2. 通过对层的激活值的归一化,可以加速模型收敛
  3. 对单个训练样本进行,不依赖于其他数据进行归一化

Transformer

优缺点

优点:

  1. 相比CNN,计算两个位置之间的关联所需的操作次数不随距离增长(任意两个单词的距离变成1)
  2. 突破了RNN模型不能并行计算的限制,特征抽取能力比RNN系列的模型要好
  3. 全局信息的有效处理

缺点:
4. 序列较长时,计算耗时严重
5. Transformer需要一种方式来表示序列中元素的相对或绝对位置关系
6. Transformer模型缺乏归纳偏置 inductive bias能力,在数据不足时无法很好地泛化到新任务上,不具备像CNN那样的平移不变性和局部性
7. 丧失了捕捉局部特征的能力

全连接层(FC)

作用

全连接层的作用是什么? - 魏秀参的回答 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值