网络优化与正则化学习
在第 𝑡 次迭代时,梯度为 𝒈𝑡,给定一个区间 [𝑎, 𝑏],如果一个参数数的梯度小于𝑎时,就将其设为𝑎;一种有效地缓解梯度估计随机性的方式是通过使用最近一段时间内的平均梯度来代替当前时刻的随机梯度来作为参数更新的方向,从而提高优化速度。为了提高训练的稳定性,在最初几轮迭代中,采用比较小的学习率,等梯度下降到一定程度后在恢复到初始学习率。梯度截断是一种比较简单的启发方式,把梯度的模限定在一个区间,当梯度的模小于或大于这个区间时就进行截断。使用更有效的优化算法来提高梯度下降优化方法的效率和稳定性。
原创
2022-10-22 17:18:53 ·
468 阅读 ·
0 评论