优化问题
文章平均质量分 85
谁是momo子
拖延症患者
展开
-
深度学习最优化(一)—— 梯度下降法
原创 2018-04-09 16:23:56 · 325 阅读 · 0 评论 -
深度学习最优化(二)—— 牛顿法和拟牛顿法
原创 2018-04-09 16:26:20 · 618 阅读 · 0 评论 -
深度学习最优化(三)—— 共轭梯度法
原创 2018-04-09 16:27:40 · 1726 阅读 · 0 评论 -
深度学习最优化(四)—— 动量法/Nesterov/Adagrad/Adadelta/RMSprop/Adam/Nadam
1. SGD现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。 其中是模型参数,是模型目标函数,是目标函数的梯度,是学习率。难点(缺点): (1)学习率的选择。过低收敛缓慢,过高无法收敛。 (2)“...原创 2018-10-16 20:53:55 · 4863 阅读 · 0 评论