BN （batch normal）层原理解析

最新推荐文章于 2023-12-01 18:02:13 发布

baidu_huihui

最新推荐文章于 2023-12-01 18:02:13 发布

阅读量1.5k

点赞数 1

分类专栏： batch normal

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41617231/article/details/108743579

版权

本文解析了BN（Batch Normalization）层的作用，包括为何训练数据应与测试数据同分布，白化训练数据如何加速训练进程，梯度爆炸的概念，BN层如何加速网络收敛速度，以及其改善梯度弥散的原因。BN层通常置于线性或卷积层后，以稳定非线性单元前的分布，提高训练效率。

摘要由CSDN通过智能技术生成

1 训练数据为什么要和测试数据同分布？

看看下图，如果我们的网络在左上角的数据训练的，已经找到了两者的分隔面w，如果测试数据是右下角这样子，跟训练数据完全不在同一个分布上面，你觉得泛化能力能好吗？
这里写图片描述

2 为什么白化训练数据能够加速训练进程

如下图，训练数据如果分布在右上角，我们在初始化网络参数w和b的时候，可能得到的分界面是左下角那些线，需要经过训练不断调整才能得到穿过数据点的分界面，这个就使训练过程变慢了；如果我们将数据白化后，均值为0，方差为1，各个维度数据去相关，得到的数据点就是坐标上的一个圆形分布，如下图中间的数据点，这时候随便初始化一个w，b设置为0，得到的分界面已经穿过数据了，因此训练调整，训练进程会加快
这里写图片描述

3 什么是梯度爆炸

如果网络使用sigmod激活函数，误差在向前传递的时候，经过sigmod单元，需要乘sigmod的梯度，而sigmod的梯度最大是0.25，因此越向前传递，误差就越小了，这就是梯度消散，但是梯度爆炸是什么？注意误差在经过全连接或者卷积层时，也要乘以权重w，如果w都比较大，大过sigmod造成

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
BN （batch normal）层原理解析

1 训练数据为什么要和测试数据同分布？看看下图，如果我们的网络在左上角的数据训练的，已经找到了两者的分隔面w，如果测试数据是右下角这样子，跟训练数据完全不在同一个分布上面，你觉得泛化能力能好吗？2 为什么白化训练数据能够加速训练进程如下图，训练数据如果分布在右上角，我们在初始化网络参数w和b的时候，可能得到的分界面是左下角那些线，需要经过训练不断调整才能得到穿过数据点的分界面，这个就使训练过程变慢了；如果我们将数据白化后，均值为0，方差为1，各个维度数据去相关，得到的数据点就是坐标上的一个圆形.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。