Batch Normalization 原理及作用

最新推荐文章于 2024-04-25 11:01:22 发布

DK_tian

最新推荐文章于 2024-04-25 11:01:22 发布

阅读量2.1k

点赞数 1

文章标签： batch 机器学习开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DK_tian/article/details/121087227

版权

用一句话来说清楚：对数据进行缩放，并且分布在激活函数最佳分类区间内。

作用：类似于机器学习中的特征缩放，将分散的数据集中起来。

用法：通常放在全连接、卷积层之后，relu层之前。

原理：图像数据经过卷积层后，相当于进行了一次线性变换。此时数据的离散程度比较高，分布范

围如下图所示，大概在[-4,4]的区间内。

我们sigmid函数分辨率最好的区域是[-2,2],其中导数值[0.1,0.25]区间。其余部分导数较小接近于0，分布在此的数据对对激活函数的敏感程度低，分类效果不明显。

批量归一的作用就是，将数据集中在0附近，此时分类器的导数最大，对数据敏感程度最高，能够

使更多的有效数据进入下一层。

好处：①不仅仅极大提升了训练速度，收敛过程大大加快；②还能增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；③另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization 原理及作用

用一句话来说清楚：对数据进行缩放，并且分布在激活函数最佳分类区间内。作用：类似于机器学习中的特征缩放，将分散的数据集中起来。用法：通常放在全连接、卷积层之后，relu层之前。原理：图像数据经过卷积层后，相当于进行了一次线性变换。此时数据的离散程度比较高，分布范围如下图所示，大概在[-4,4]的区间内。我们sigmid函数分辨率最好的区域是[-2,2],其中导数值[0.1,0.25]区间。其余部分导数较小接近于0，分布在此的数据对对激活函数的敏感程度低，分类效果不明显。批量归一的作用.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。