AI学习笔记——交叉熵损失函数、梯度下降优化器

本文探讨了在深度学习中优化器的重要性,从梯度下降的基本概念出发,详细介绍了SGD、SGD+Momentum、Nesterov Momentum、AdaGrad、RMSProp和Adadelta等优化算法,旨在理解如何更有效地逼近全局最优解,并解决了传统SGD可能出现的震荡问题。
摘要由CSDN通过智能技术生成

梯度下降

keras 优化器

while True:
     weights_grad = evaluate_gradient ( loss_fun, data, weight )
     weights += step_size * weighs_grad 

凸函数:这里的博客说的比较明白,其实主要理解一下全局最优和局部最优
神经网络并不是凸优化问题,只能通过不同策略尽可能接近全局最优点。
局部最优值:local minima
鞍点:saddle point ,朝各个方向看过去梯度都为零,梯度下降会卡住。
** SGD可能会在优化过程中发生震荡,解决:减小步伐 **

SGD + Momentum

引入动量的概念:可以从局部最优点或鞍点中“跳”出来
build up “velocity” as a running mean of gradients
rho gives “friction”; typically rho = 0.9 or 0.99 (摩擦力)

vx = 0
while True :
     dx = compute_gradient (x)
     vx = rho * vx + dx
     x  -= learning_rate * vx
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值