批归一化作用_深度学习中批归一化的陷阱

最新推荐文章于 2024-05-23 12:49:04 发布

weixin_39910824

最新推荐文章于 2024-05-23 12:49:04 发布

阅读量502

点赞数 1

文章标签：批归一化作用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39910824/article/details/111781107

版权

批归一化在深度学习中广泛应用，但可能存在潜在问题。当训练数据集的批处理组合不当时，模型性能可能会下降。例如，MNIST和SVHN数据混合训练导致批归一化参数基于混合数据的平均值，测试时则使用单一数据集的平均值，造成性能差异。解决方案包括随机采样、使用层归一化或权重归一化等替代方法。

摘要由CSDN通过智能技术生成

批归一化技术(Batch Normalization)是深度学习中最近出现的一个有效的技术，已经被广泛证明其有效性，并很快应用于研究和应用中去。这篇文章假设读者知道什么是批归一化，并对批归一化有一定程度的了解，知道它是如何工作的。如果你是刚刚接触这个概念，或者需要复习一下，您可以在后面的链接地址找到批归一化的简要概述(http://blog.csdn.net/malefactor/article/details/51476961)。

本文使用两种不同方法实现了一种神经网络。每一步都输入相同的数据。网络具有完全相同的损失函数、完全相同的超参数和完全相同的优化器。然后在完全相同数量的 GPU 上进行训练。结果是其中一个版本的分类准确度比另一种低2%，并且这种性能的下降表现地很稳定。

我们拿一个简单的 MNIST 和 SVHN 的分类问题为例。

在***种实现中，抽取一批 MNIST 数据和一批 SVHN 数据，将它们合并到一起，然后将其输入网络。

在第二种实现中，创建两个副本的网络，并共享权重。一个副本输入 MNIST 数据，另一个副本输入 SVHN 数据。

请注意，在这两种实现里，一半的数据是 MNIST，另一半是 SVHN。另外由于第二种实现共享权重，使得两个模型的参数数量相同，且其更新方式也相同。

简单地想一下，这两个模型的训练过程中梯度应该是相同的。事实也是如此。但是在加入批归一化之后情况就不同了。在***种实现中，同一批数据中同时包含 MN

最低0.47元/天解锁文章

weixin_39910824

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。