SDG(随机梯度下降):
梯度下降算法每一步的更新都需要更新所有的参数,这样非常耗费时间。因此从m个样本中,随机选择一个样本,每次更新时只对这一个样本更新,随机二字即是:我们可以用这一个样本代表所有样本。因为该样本是随机的,所以每次得到的损失函数不一定是朝着全局最优的方向,但大体上还是向着全局最优解靠近。
SGD随着时间的推移,学习率可以逐渐衰减也可以固定不变。但是初始学习率很重要。一般基于前几轮的训练和测试结果,选择一个比最佳效果更大的学习率。
SGD
最新推荐文章于 2024-09-06 06:30:00 发布