python原理及代码_BatchNorm的原理及代码实现

最新推荐文章于 2024-06-26 11:57:46 发布

weixin_39963534

最新推荐文章于 2024-06-26 11:57:46 发布

阅读量753

点赞数

文章标签： python原理及代码

本文链接：https://blog.csdn.net/weixin_39963534/article/details/111441464

版权

本文详细探讨了Batch Normalization（BatchNorm）在深度学习中的作用，旨在解决内部协变量偏移问题，加速训练过程。通过规范化操作，BatchNorm能够保持神经网络各层输入的稳定分布，并通过学习到的scale和shift参数保持非线性。文章还介绍了BatchNorm的优缺点、Python代码实现，以及训练和测试过程。同时提到了在小批量尺寸下性能下降的问题，引出了Group Normalization作为替代方案。

摘要由CSDN通过智能技术生成

Batch Normalization

机器学习领域有个很重要的假设：IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。？BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。

对于深度学习这种包含很多隐层的网络结构，在训练过程中，因为各层参数老在变，所以每个隐层都会面临covariate shift的问题，也就是在训练过程中，隐层的输入分布老是变来变去，这就是所谓的“Internal Covariate Shift”，Internal指的是深层网络的隐层，是发生在网络内部的事情，而不是covariate shift问题只发生在输入层。

BN的基本思想其实相当直观：因为深层神经网络在做非线性变换前的激活输入值(就是那个x=WU+B，U是输入)随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值)，所以这导致后向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正太分布而不是正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

但是很明显，稍微了解神经网络的读者一般会提出一个疑问：如果都通过BN，那么不就跟把非线性函数替换成线性函数效果相同了？这意味着什么？我们知道，如果是多层的线性函数变换其实这个深层是没有意义的，因为多层线性网络跟一层线性网络是等价的。这意味着网络的表达能力下降了，这也意味着深度的意义就没有了。所以BN为了保证非线性的获得，对变换后的满足均值为0方差为1的x又进行了scale加上shift操作(y=scale * x + shift)，每个神经元增加了两个参数scale和shift参数，这两个参数是通过训练学习到的，意思是通过scale和shift把这个值从标准正态分布左移或者由移一点并长胖一点或者变瘦一点，每个实例挪动的程度不一样，这样等价于非线性函数的值从正中心周围的线性区往非线性区动了动。核心思想应该是想找到一个线性