《动手学——批量归一化和残差网络》笔记

最新推荐文章于 2022-04-17 21:59:16 发布

lqqqqqc

最新推荐文章于 2022-04-17 21:59:16 发布

阅读量381

点赞数

本文链接：https://blog.csdn.net/weixin_42314414/article/details/104396668

版权

本文详细介绍了批量归一化在深度学习中的应用，包括全连接层和卷积层的批量归一化实现，以及在预测阶段的处理方式。此外，还探讨了残差网络的基本原理，如残差块的设计，以及如何解决深度网络的梯度消失问题。同时，简要提及了DenseNet的稠密块和过渡层，强调了它们在控制模型复杂度中的作用。

摘要由CSDN通过智能技术生成

批量归一化（BatchNormalization）

ps 批量归一化本质上是对数据的标准化处理，输入标准化一般用于浅层模型，但是对于深层网络，输入的标准化不够，因为随着模型的迭代更新，依然容易造成靠近输出层，它的数据是剧烈变化的。所以批量归一化的出现是应对深度模型的。

对输入的标准化（浅层模型）

处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近

批量归一化（深度模型）

利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

1.对全连接层做批量归一化

（形状 m×d，对m个元素做批量归一化）
位置：全连接层中的仿射变换和激活函数之间。
全连接：
$\boldsymbol{x} = \boldsymbol{W\boldsymbol{u} + \boldsymbol{b}} \\ output =\phi(\boldsymbol{x})$

输入是u，大小为batchsize * 输入神经元个数。经过仿射变换后得到X，X大小为batchsize * 输出神经元个数，经过激活函数得到的output形状一样。

将批量归一化放在仿射变换之后，激活函数之前。

批量归一化：
$output=\phi(\text{BN}(\boldsymbol{x}))$

$\boldsymbol{y}^{(i)} = \text{BN}(\boldsymbol{x}^{(i)})$

$\boldsymbol{\mu}_\mathcal{B} \leftarrow \frac{1}{m}\sum_{i = 1}^{m} \boldsymbol{x}^{(i)},$
$\boldsymbol{\sigma}_\mathcal{B}^2 \leftarrow \frac{1}{m} \sum_{i=1}^{m}(\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B})^2,$

最低0.47元/天解锁文章

lqqqqqc

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫