一起来学PyTorch——神经网络（BN层）

最新推荐文章于 2024-01-12 11:18:38 发布

AI葱花868

最新推荐文章于 2024-01-12 11:18:38 发布

阅读量1.2k

点赞数

文章标签：神经网络 pytorch 深度学习 python 机器学习 Powered by 金山文档

本文链接：https://blog.csdn.net/TomorrowZoo/article/details/129531658

版权

在追求高性能的过程中，卷积网络被设计的越来越深，同时变得难以训练收敛和调参。原因在于，浅层参数的微弱变化经过多层线性变换与激活函数后，会被放大。

由于网络中参数变化导致的内部节点数据分布发生变化的现象称作ICS（Internal Covariate Shift)。ICS现象容易使训练过程陷入饱和区【自变量进入某个区域后，梯度基本不变化，不变化就找不到下降最快的方向】，减慢网络的收敛。激活函数中的ReLU可以在一定程度上解决这个问题。BN层则从改变数据分布的角度避免了参数陷入饱和区。

BN层首先对每一个batch的输入特征进行白化操作，即去均值方差过程。假设一个batch的输入数据为x：B={ $\text{[math]}$ ,......, $\text{[math]}$ }，首先求该batch数据的均值与方差。

$\text{[math]}$ $\text{[math]}$

以上公式中，m代表batch的大小， $\text{[math]}$ 是批处理数据的均值， $\text{[math]}$ 为批处理数据的方差。在求得均值方差后，再进行去均值方差操作，具体如下：

$\text{[math]}$

白化操作可以使输入的特征分布具有相同的均值与方差，从而加速网络的收敛。但是，白化操作也限制了网络中数据的表达能力，浅层学到的参数信息会被白化操作屏蔽掉。因此，BN层在白化操作后又增加了一个线性变换操作，让数据尽可能地回复本身的表达能力。

BN层有以下3个优点：

缓解梯度消失，加速网络收敛。

BN层可以让激活函数的输入数据落在非饱和区，缓解了梯度消失问题。而且，由于每一层数据的均值与方差都在一定范围内，深层网络不必去不断适应浅层网络输入的变化，加快了网络的收敛。

简化调参，网络更稳定。

在调参时，学习率调的过大容易出现震荡与不收敛，BN层抑制了参数的微小变化随着网络加深而被放大的问题，因此对参数变化的适应能力更强，便于调参。

防止过拟合。

BN层将每一个batch的均值与方差引入到网络中，由于每个batch的这两个值都不相同，可以看作为训练增加了随机的噪音，可以起到一定的正则效果，防止过拟合。

BN层有以下2个缺点：

要求较大的batch。

因为是在batch的维度进行归一化，所以需要较大的batch，同时算法占用内存较高，限制了batch的大小，也会限制BN层的效果。

数据的batch大小在训练与测试时往往不一样。

在训练时一般采用滑动来计算平均值与方差，在测试时直接使用训练集的结果。因此对训练集和测试集的数据分布有要求。

Pytorch实现实例如下：

from torch import nn
# 使用BN层需要传一个参数num_features, 即特征的通道数
bn = nn.BatchNorm2d(64)
input = torch.randn(4, 64, 224, 224)
output = bn(input)

AI葱花868

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
一起来学PyTorch——神经网络（BN层）

在追求高性能的过程中，卷积网络被设计的越来越深，同时变得难以训练收敛和调参。原因在于，浅层参数的微弱变化经过多层线性变换与激活函数后，会被放大。由于网络中参数变化导致的内部节点数据分布发生变化的现象称作ICS（Internal Covariate Shift)。ICS现象容易使训练过程陷入饱和区【自变量进入某个区域后，梯度基本不变化，不变化就找不到下降最快的方向】，减慢网络的收敛。激活函数中的ReLU可以在一定程度上解决这个问题。BN层则从改变数据分布的角度避免了参数陷入饱和区。
复制链接

扫一扫