AI学习笔记——交叉熵损失函数、梯度下降优化器

TRY2333

于 2020-03-05 17:01:14 发布

阅读量1.4k

点赞数 1

分类专栏： AI

本文链接：https://blog.csdn.net/tesla233/article/details/104586879

版权

本文探讨了在深度学习中优化器的重要性，从梯度下降的基本概念出发，详细介绍了SGD、SGD+Momentum、Nesterov Momentum、AdaGrad、RMSProp和Adadelta等优化算法，旨在理解如何更有效地逼近全局最优解，并解决了传统SGD可能出现的震荡问题。

摘要由CSDN通过智能技术生成

梯度下降

keras 优化器

while True:
     weights_grad = evaluate_gradient ( loss_fun, data, weight )
     weights += step_size * weighs_grad

凸函数：这里的博客说的比较明白，其实主要理解一下全局最优和局部最优
神经网络并不是凸优化问题，只能通过不同策略尽可能接近全局最优点。
局部最优值：local minima
鞍点：saddle point ，朝各个方向看过去梯度都为零，梯度下降会卡住。
** SGD可能会在优化过程中发生震荡，解决：减小步伐 **

SGD + Momentum

引入动量的概念：可以从局部最优点或鞍点中“跳”出来
build up “velocity” as a running mean of gradients
rho gives “friction”; typically rho = 0.9 or 0.99 (摩擦力)

vx = 0
while True :
     dx = compute_gradient (x)
     vx = rho * vx + dx
     x  -= learning_rate * vx

最低0.47元/天解锁文章

TRY2333

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AI学习笔记——交叉熵损失函数、梯度下降优化器

梯度下降keras 优化器while True: weights_grad = evaluate_gradient ( loss_fun, data, weight ) weights += step_size * weighs_grad 凸函数：这里的博客说的比较明白，其实主要理解一下全局最优和局部最优神经网络并不是凸优化问题，只能通过不同策略尽可能接近全局最优点。...
复制链接

扫一扫

专栏目录