Batch Normalization (BN层)-----批归一化

目录

 

1.数据分布

2.BN层的作用

3.BN核心公式和流程:

4. BN用于CNN中

5. BN测试时


1.数据分布

在讲BN层之前,我们得先了解何为数据分布,数据分布跟网络训练又有什么关系。

(1)抛砖引玉

我曾经在做一个分类网络时,遇到一个问题,就是训练的时候,精度一直是0,百思不得其解。后来看了下数据的输入顺序,原来是这样的,数据共500张,顺序是100张苹果,然后100张香蕉,然后100张橘子,然后100张梨,然后100张桃子。我们的batch size是5。这时候会出现什么问题呢,就是每个batch的数据输入网络的数据,会一直是苹果,然后苹果数据没了,就会是一直是香蕉...如此类推。这样子网络是没法学到东西的,后来通过打乱数据集的数据,就是不让同一类水果的数据都堆在一起,这就解决了问题,网络能成功训练了。这背后的问题就是数据分布问题,在没打乱之前,数据分布明显是会变来变去的,要么都是苹果,要么都是其他水果,在打乱之后,数据大体的分布就趋向一致了。

(2)训练数据为什么要和测试数据同分布:

看下图,如果我们的网络是在左上角的数据上训练的,已经找到了两者的分隔面w,如果测试数据是右下角这样子,跟训练数据完全不在同一个分布上面,你觉得泛化能力能好吗?说到底,网络训练的时候学习的是训练数据的分布。

2.BN层的作用

1.加快网络训练和收敛的速度。(这是BN的主要作用

2.控制梯度爆炸,防止梯度消失

3.防止过拟合

BN层:

BN全称是Batch Normalization,意思是批归一化。

提到归一化,先解释一下为什么要做归一化,神经网络在开始训练前,都会对数据做一个归一化处理,把数据变成均值为0,方差为1,这样要能让网络更好更快地收敛。(原因)。那么我们知道,网络学习的本质其实是学习数据的分布,训练数据与测试数据的分布一样,训练出来的网络才能在测试集中取得不错的效果,但另一方面,如果输入网络训练的每一批数据的分布都不一样的话,那么网络就要在每次训练迭代的过程中去适应不同的分布,这会大大降低网络的训练速度。这也是网络开始训练前要对数据做归一化预处理的一个原因。

而网络一旦训练起来,参数就要发生更新,除了输入层,其他层的数据分布都是不断变化的,因为在训练的时候,网络参数的变化就会导致后面输入数据的分布变化。而BN就是为了解决这个问题的。有人说,那对每一层的输出都做一次归一化(例如归一化到均值为0,方差为1),然后再继续训练不就行了吗?但是事实上如果这样做的话会改变掉网络之前已经学习到的特征,例如某一层的网络的输出是大部分比较靠近0的右边的,经过ReLu激活函数后(大于0的会线性激活),大部分都会被激活,但如果强行进行归一化,则大部分输出都无法激活了,这样的话,原来学习到的特征不就被破坏掉了吗?针对这个问题,BN对上面的方法做了一点改进:变换重构,引入可以学习的参数,这是BN算法的关键之处。因为:

BN就是对每一层输出进行归一化,然后通过BN中学习到的参数,来还原被归一化之前的数据特征

 

3.BN核心公式和流程:

如下:

                                            

解释一下公式:

1. 输入的一批数据为B,可训练参数 \gamma\beta

2.BN的具体操作,先计算B的均值\gamma _{B}和方差\sigma _{B}^{2}

3.然后用均值\gamma _{B}和方差\sigma _{B}^{2}对B中的每一个输出(即x)做归一化。

4.最后将B中的每个输出(即x)乘 \gamma再加上\beta,目的是还原归一化后的特征。如下公式:(k为B中第k个x)

 

5.注意:BN是对每一个x做处理的,即B数据中每一个x都会有两个参数:\gamma\beta

 

4. BN用于CNN中

上面讲到,对于批数据B中的每一个x,都有两个参数\gamma\beta。但这样在CNN上就很难搞,因为CNN参数很多,假如某一层卷积层有6个特征图,每个特征图的大小是100*100,这样就相当于这一层网络有6*100*100个神经元,那么每个神经元都有\gamma\beta的话,那么一个BN层就有 6*100*100*2个参数。这是相当恐怖的,所以其实卷积神经网络使用BN的时候,也做了权重共享的策略,把一张特征图当做一个神经元来处理。

如下图:

假设下图为CNN中某一层的特征图,其维度通常记为[N, H, W, C],其中N是batch_size,H、W是行、列,C是通道数。那么上式中BN的输入集合B就是蓝色的部分。

                                                   

那么均值怎么求呢?

为了方便说明,假设C=3的RGB图片,batch size = 10(即N=10),均值就等于上图蓝色的所有像素值都加起来,然后除H*W*10。再计G通道全部像素值总和除以H*W*10,再计算B通道全部像素值总和除以H*W*10。方差也是类似。

可训练参数\gamma\beta的维度等于通道数C,因为BN在CNN中,是一批次的数据(即蓝色部分)分配一对\gamma\beta的。

所以特征重构时,蓝色部分的每个元素用的都是相同的\gamma\beta。在上述例子中,RBG三个通道分别各自需要一个\gamma\beta

 

5. BN测试时

在训练结束时,已经不存在batch的概念了。因为测试时,是一张张图片输入网络的。那么这个时候的BN层改如何计算均值和方差呢?在测试时候提到的均值和方差已经不是针对一个batch数据而言,而是针对整个数据集而言的,所以在训练过程中还会记录每一个Batch的均值和方差,以便训练完成之后按照下式计算整体的均值和方差:

                                                         

意思是,此时的均值是整个数据集的均值(即基于所有批次的均值),m为batch size的大小,即每个B中有m张图片。m-1表示训练时每个批次B的图片数不能是1,因为要是1的话,就没必要计算均值和方差做归一化了。

  • 22
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
在Pytorch中,BN层Batch Normalization的缩写,用于在深度学习模型中对输入数据进行归一化处理。BN层的作用是通过对每个小量的输入数据进行归一化,使得模型在训练过程中更加稳定和快速收敛。\[1\] 在Pytorch中,使用BN层的方法如下所示: ```python from torch import nn # 创建一个BN层对象,需要传入特征的通道数num_features作为参数 bn = nn.BatchNorm2d(num_features) # 输入数据 input = torch.randn(batch_size, num_features, height, width) # 将输入数据传入BN层进行处理 output = bn(input) ``` 其中,`num_features`表示输入数据的通道数,`batch_size`表示输入数据的量大小,`height`和`width`表示输入数据的高度和宽度。\[1\] 在BN层的类中,还有一些其他的参数可以进行设置,例如`eps`表示用于数值稳定性的小值,默认为1e-5;`momentum`表示用于计算移动平均的动量,默认为0.1;`affine`表示是否学习BN层的参数γ和β,默认为True;`track_running_stats`表示是否跟踪训练过程中的统计数据,默认为True。\[2\] 需要注意的是,BN层的参数γ和β是否可学习是由`affine`参数控制的,默认情况下是可学习的,即可通过反向传播进行更新。而BN层的统计数据更新是在每一次训练阶段的`model.train()`后的`forward()`方法中自动实现的,而不是在梯度计算与反向传播中更新`optim.step()`中完成。\[3\] #### 引用[.reference_title] - *1* [一起来学PyTorch——神经网络(BN层)](https://blog.csdn.net/TomorrowZoo/article/details/129531658)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [pytorch中的BN层简介](https://blog.csdn.net/lpj822/article/details/109772094)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值