损失能收敛到0么 深度学习_CVPR 2018 | 加速模型收敛的新思路(控制理论+深度学习)...

大家熟知的大疆无人机也不例外

下面就来说说控制理论和深度学习优化的关系。在控制理论里,“误差”即受控机器的输出与期望值之间的距离。如何根据“误差”让机器做出下一步更新的算法就是控制器。

对于深度学习优化,将模型输出和期望输出的误差来定义为损失函数。损失函数通过执行“误差的反向传播” [1] 得到梯度来影响权重。就像 Hinton 老先生在其发表在 Nature [1] 的文章里那样描述的,梯度是每个权值对总的损失函数贡献,其与损失函数为线性关系。

把深度学习里的”梯度”看成是当前权重与最优权重的“误差”,这样 SGD-Momentum就与 PID 优化器通过”梯度”与“误差”的联系而联系到了一起。如下图,可以看到控制过程与深度学习的优化过程的联系,可以发现控制系统里的反馈、误差、PID控制器与深度学习里的反响传播、梯度、优化器有着很高的相似度。

如果把控制里的误差用梯度替换掉的话,那么深度学习优化器 SGD-Momentum 和反馈控制器 PID 就有如下的关系:

这样 SGD-Momentum 可以等效为 PI 控制器。而在控制理论中,PI 控制有超调的问题,也就是说 SGD-Momentum 有超调问题,这一点其实很容易理解,因为 I(Integral)是历史梯度的积累。也就是说如果历史梯度朝着同一个方向变化的话,那么朝着该方向的变化就会不断地加速,但是如果要改变方向,那么由于历史梯度还是朝着相反的方向变化,就会产生滞后反应或者也叫超调(Overshoot)的问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值