MIT的论文
2020年
平滑
- 如果一个函数符合L-smooth,那么在梯度下降法中,h=1/L是最优的常数。
- 但是L-smooth应用有限。比如y=x^3即不符合假设。这样只能将其限制在一段符合该假设的范围内使用,但是这样也导致L很大, 收敛变慢。
问题引入
- 函数平滑性和梯度范数成正相关local smoothness positively correlates with the full gradient norm
- 如果能够设计一个合理的平滑性前提,是不是能找到一个更快收敛的算法?
- (我自己的补充,梯度越大,说明函数越陡,优化步进的步幅也就越大larger steps,所以希望梯度范数更大,就需要L越大)
结论
- 如果损失函数满足更宽松的(L0, L1)平滑,而不是严格的Lipschitz平滑,那么可以证明梯度修剪和梯度归一化会比定步长梯度下降更快。