- 博客(1)
- 收藏
- 关注
原创 SGD
SDG(随机梯度下降):梯度下降算法每一步的更新都需要更新所有的参数,这样非常耗费时间。因此从m个样本中,随机选择一个样本,每次更新时只对这一个样本更新,随机二字即是:我们可以用这一个样本代表所有样本。因为该样本是随机的,所以每次得到的损失函数不一定是朝着全局最优的方向,但大体上还是向着全局最优解靠近。SGD随着时间的推移,学习率可以逐渐衰减也可以固定不变。但是初始学习率很重要。一般基于前几轮...
2019-10-15 16:29:17 1060
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人