关于激活函数的思考(zig-zagging dynamics)

我们在学习深度学习的时候会介绍几种激活函数,从Sigmod到RELU,在讲述特性的时候,都会提到像sigmod和RELU这样的激活函数有个问题就是none-zero-centered,即均值非0。这时候就有个缺点被称为zig-zagging dynamics(即锯齿状)。但是很少有展开解释为什么的,为什么会产生这样的收敛图。经过查阅资料,有一篇写的很好:

​​​​​​neural networks - Why are non zero-centered activation functions a problem in backpropagation? - Cross Validated

也就是我们假设函数为Wx+b,激活函数为SIgmod,我们知道的Sigmod的导数样子为

 

 是恒大于0的,导数的正负完全由x的正负决定。那么我们达到最优解可能就需要:

 如图所示走一个锯齿状的路线,即收敛速度就会较慢,即zig-zagging dynamics现象。

那么有同学就要问了——为什么和均值是否为0有关呢?均值为0为什么就不会有这种现象了呢?

因为均值为0,除非恒为0,否则函数的导数不能一直为正,这样就可以避免这样的zigzag路径了。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MendozaG

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值