神经网络中的BN层

最新推荐文章于 2024-06-04 21:48:28 发布

我本将心向明月5526

最新推荐文章于 2024-06-04 21:48:28 发布

阅读量4.8k

点赞数 4

分类专栏：人工智能文章标签：神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a631103520/article/details/108351974

版权

BN层

BN，全称Batch Normalization（批规范化）,是2015年提出的一种方法，在进行深度网络训练时，大都会采取这种算法。算法过程如下：
在这里插入图片描述
简单来说就是对上一层输出的数据进行规范化。

优势:

加快网络的训练和收敛的速度，即我们可以使用较大的学习率
控制梯度爆炸防止梯度消失
防止过拟合

1.加快训练速度

在深度神经网络中中，如果把每层的数据都在转换在均值为零，方差为1的状态下，这样每层数据的分布都是一样的训练会比较容易收敛。
原因在于神经网络学习过程本质就是为了学习数据分布，如果训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，深度网络的训练是一个复杂的过程，只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。如果每批训练数据的分布各不相同，那么网络就要在每次迭代都去学习适应不同的分布，这样将会降低网络的训练速度。

2.控制梯度爆炸防止梯度消失

2.1什么是梯度爆炸/消失

梯度消失与梯度爆炸其实是一种情况。以下图以三个隐层的单神经元网络为例：
在这里插入图片描述
以上图为例，假设每一层网络激活后的输出为 $f_{i}(x)$ ,其中 $i$ 为第 $i$ 层, $x$ 代表第 $i$ 层的输入, 也就是第 $i - 1$ 层的输出, $f$ 是激活函数, 那么, 可得出 $f_{i+1}=f\left(f_{i} * w_{i+1}+b_{i+1}\right),$ 简

最低0.47元/天解锁文章

我本将心向明月5526

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
神经网络中的BN层

BN层BN，全称Batch Normalization（批规范化）,是2015年提出的一种方法，在进行深度网络训练时，大都会采取这种算法。算法过程如下：简单来说就是对上一层输出的数据进行规范化。优势:加快网络的训练和收敛的速度，即我们可以使用较大的学习率控制梯度爆炸防止梯度消失防止过拟合1.加快训练速度在深度神经网络中中，如果每层的数据分布都不一样的话，将会导致网络非常难收敛和训练，而如果把每层的数据都在转换在均值为零，方差为1的状态下，这样每层数据的分布都是一样的训练会比较容易收敛。
复制链接

扫一扫

专栏目录

我本将心向明月5526 CSDN认证博客专家 CSDN认证企业博客

码龄5年

11: 原创

66万+: 周排名

186万+: 总排名

1万+: 访问

: 等级

182: 积分

1: 粉丝

5: 获赞

1: 评论

26: 收藏

私信

关注

热门文章

分类专栏

机器学习 9篇
人工智能 4篇

最新评论

神经网络中的BN层
Luna_Lovegood_001: 您好，“BN层一般用在线性层和卷积层后面，而不是放在非线性单元后，因为非线性单元的输出分布形状会在训练过程中变化，归一化无法消除他的方差偏移，相反的，全连接和卷积层的输出一般是一个对称,非稀疏的一个分布，更加类似高斯分布，对他们进行归一化会产生更加稳定的分布。”这句话出自哪里么

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。