干货!随机梯度下降与指数步长及余弦步长

点击蓝字

f117fd53ebb778b1c240243733fdbc3d.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

随机梯度下降(SGD)是训练大规模机器学习模型的常用工具。然而,它的性能非常取决于步长的选择。各种调整步长的策略因此被提出,从自适应步长到复杂的启发式方法,即在每次迭代中改变步长。在本文中,我们研究了两种在实践中表现良好的步长:指数步长和余弦步长。首先,我们理论证明了其在光滑非凸函数的收敛速度,涵盖了符合或不符合Polyak-Łojasiewicz(PL)条件的情况。此外,我们研究发现这两种步长对PL函数随机梯度中的噪声水平具有自适应性的性质。也就是说,即使在不知道噪声水平的情况下,它们也可以达到几乎最优的理论结果。最后,我们在具有深度学习体系结构的数据集上对其进行了全面的实验评估。结果表明,即使至多需要两个超参数,这两种步长的实验表现可以超过或者匹敌多种先进步长策略的性能表现。

本期AI TIME PhD直播间我们邀请到波士顿大学系统工程博士生——李晓宇,为我们带来报告分享《随机梯度下降与指数步长及余弦步长》

41f1c8629bd54e22c9a252a025fa5289.png

李晓宇

波士顿大学系统工程博士四年级学生,导师是Dr. Francesco Orabona。研究方向主要包括随机优化,机器学习理论。

01

基础理论/背景介绍

凸函数与非凸函数的优化目标

给定函数f,在集合中寻找一个元素,使得函数f取最小值。这里集合X可能是凸集(convex set)或者是非凸集合(non-convex set)。

c64a6abff2704cd9a3fbd8b9f77f8f73.png

在凸集上,可以定义凸函数,这里来讲述一下函数的凹凸性的概念。下面分别是凸函数和凹函数的示意图及特点,

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值