Batch Normalization 原理及作用

用一句话来说清楚:对数据进行缩放,并且分布在激活函数最佳分类区间内。

作用:类似于机器学习中的特征缩放,将分散的数据集中起来。

用法:通常放在全连接、卷积层之后,relu层之前。

原理:图像数据经过卷积层后,相当于进行了一次线性变换。此时数据的离散程度比较高,分布范

 围如下图所示,大概在[-4,4]的区间内。

我们sigmid函数分辨率最好的区域是[-2,2],其中导数值[0.1,0.25]区间。其余部分导数较小接近于0,分布在此的数据对对激活函数的敏感程度低,分类效果不明显。

批量归一的作用就是,将数据集中在0附近,此时分类器的导数最大,对数据敏感程度最高,能够

使更多的有效数据进入下一层。

 好处:不仅仅极大提升了训练速度,收敛过程大大加快;②还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;③另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值