全连接层后面加bn层_深度学习之BN和Dropout在训练和测试时的差别

最新推荐文章于 2022-08-22 20:52:01 发布

金知

最新推荐文章于 2022-08-22 20:52:01 发布

阅读量2.5k

点赞数 1

文章标签：全连接层后面加bn层

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36245388/article/details/112414685

版权

本文探讨了Batch Normalization(BN)和Dropout在深度学习中的作用，BN通过调整每层神经网络输入的分布，而Dropout通过随机失活神经元减少过拟合。在训练时，BN使用每批数据的均值和方差，而测试时使用全部训练数据的均值和方差。Dropout仅在训练时使用，以提高模型泛化能力。当BN和Dropout一起使用时，可能会导致方差偏移问题，影响模型性能。解决方案包括调整两者的位置或使用高斯Dropout。

摘要由CSDN通过智能技术生成

Batch Normalization

BN，Batch Normalization，就是在深度神经网络训练过程中使得每一层神经网络的输入保持相近的分布。

BN训练和测试时的参数是一样的嘛？

对于BN，在训练时，是对每一批的训练数据进行归一化，也即用每一批数据的均值和方差。

而在测试时，比如进行一个样本的预测，就并没有batch的概念，因此，这个时候用的均值和方差是全量训练数据的均值和方差，这个可以通过移动平均法求得。

对于BN，当一个模型训练完成之后，它的所有参数都确定了，包括均值和方差，gamma和bata。

BN训练时为什么不用全量训练集的均值和方差呢？

因为在训练的第一个完整epoch过程中是无法得到输入层之外其他层全量训练集的均值和方差，只能在前向传播过程中获取已训练batch的均值和方差。那在一个完整epoch之后可以使用全量数据集的均值和方差嘛？

对于BN，是对每一批数据进行归一化到一个相同的分布，而每一批数据的均值和方差会有一定的差别，而不是用固定的值，这个差别实际上也能够增加模型的鲁棒性，也会在一定程度上减少过拟合。

但是一批数据和全量数据的均值和方差相差太多，又无法较好地代表训练集的分布，因此，BN一般要求将训练集完全打乱，并用一个较大的batch值，去缩小与全量数据的差别。

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。