关于Batch Normalization的另一种理解

最新推荐文章于 2024-03-05 18:15:32 发布

VIP文章 aipiano

最新推荐文章于 2024-03-05 18:15:32 发布

阅读量9.7k

点赞数 10

分类专栏： AI and Image Processing 文章标签：深度学习

本文链接：https://blog.csdn.net/AIchipmunk/article/details/54234646

版权

Batch Norm可谓深度学习中非常重要的技术，不仅可以使训练更深的网络变容易，加速收敛，还有一定正则化的效果，可以防止模型过拟合。在很多基于CNN的分类任务中，被大量使用。
但我最近在图像超分辨率和图像生成方面做了一些实践，发现在这类任务中，Batch Norm的表现并不好，加入了Batch Norm，反而使得训练速度缓慢，不稳定，甚至最后发散。
以下是我对这一现象的个人看法，并不严格，还需继续检验。

首先，以图像超分辨率来说，网络输出的图像在色彩、对比度、亮度上要求和输入一致，改变的仅仅是分辨率和一些细节，而Batch Norm，对图像来说类似于一种对比度的拉伸，任何图像经过Batch Norm后，其色彩的分布都会被归一化，也就是说，它破坏了图像原本的对比度信息，所以Batch Norm的加入反而影响了网络输出的质量。虽然Batch Norm中的scale和shift参数可以抵消归一化的效果，但这样就增加了训练的难度和时间，还不如直接不用。不过有一类网络结构可以用，那就是残差网络（Residual Net），但也仅仅是在residual block当中使用，比如SRResNet，就是一个用于图像超分辨率的残差网络。为什么这类网络可以使用Batch Norm呢？我个人理解是，因为图像的对比度信息可以通过skip connection直接传递，所以也就不必担心Batch Norm的破坏了。

最低0.47元/天解锁文章

aipiano

关注

10
点赞
踩
14

收藏

觉得还不错? 一键收藏
4
评论
关于Batch Normalization的另一种理解

Batch Norm可谓深度学习中非常重要的技术，不仅可以使训练更深的网络变容易，加速收敛，还有一定正则化的效果，可以防止模型过拟合。在很多基于CNN的分类任务中，被大量使用。但我最近在图像超分辨率和图像生成方面做了一些实践，发现在这类任务中，Batch Norm的表现并不好，加入了Batch Norm，反而使得训练速度缓慢，不稳定，甚至最后发散。
复制链接

扫一扫