CNN和RNN中如何引入BatchNorm

最新推荐文章于 2025-02-25 20:56:53 发布

张俊林博客

最新推荐文章于 2025-02-25 20:56:53 发布

阅读量4.2w

点赞数 18

分类专栏：自然语言处理深度学习文章标签：深度学习 BatchNorm RNN cnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/malefactor/article/details/51549771

版权

本文讨论了在卷积神经网络（CNN）和循环神经网络（RNN）中引入Batch Normalization（BN）的方法及其效果。CNN中BN通常应用于每个Filter Map的整体，共享Scale和Shift参数。RNN中，BN的引入存在水平（时间序列方向）和垂直（层叠方向）两种方式。研究表明，垂直方向的BN有助于加速收敛，但可能在浅层模型中导致过拟合；水平方向BN的效果受Scale参数大小影响，小规模实验中可能有负面影响，但适当调整后可以加快训练并提升泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

/* 版权声明：可以任意转载，转载时请标明文章原始出处和作者信息 .*/

author: 张俊林

Batch Normalization的基本思路和价值在之前一篇文章“Batch Normalization导读”介绍了，此处不赘述，背景知识请参考上面文章。

看到BN后，很明显能够看到这等于往传统的神经网络中增加了一个BN层，而且位置处于神经元非线性变换前，基本大多数网络结构都能很自然地融合进去，于是很自然的想法就是：如果用在CNN或者RNN效果会如何？是否也会增加收敛速度以及模型分类性能？CNN的使用方式在原始的Batch Normalization论文就说了，RNN则有相关后续研究跟进，目前看还没有特别明确的结论。

|CNN的BatchNorm

CNN和DNN不一样，某个卷积层包含多个FilterMap，而每个Filter Map其实是参数共享的，侦测同一类特征，是通过在输入图像上的局部扫描的方式遍历覆盖整个输入图像的，但是单个Filter Map本身可能是二维甚至多维的，如果是二维的，那么包含p*q个神经元。那么此时要应用BN其实有两种选择：

一种是把一个FilterMap看成一个整体，可以想象成是一个Filter Map对应DNN隐层中的一个神经元，所以一个Filter Map的所有神经元共享一个Scale和

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。