梯度下降对比理解

一、什么是梯度

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

二元函数和多元函数梯度下降示意图依次如下:
二元函数梯度下降

多元函数梯度下降

二、梯度下降和函数求最值对比
函数对比普通函数: f ( x ) = x 2 f(x)=x^2 f(x)=x2损失函数: l ( θ ) = θ 1 2 + θ 2 2 + . . . l(\theta)=\theta_1^2+\theta_2^2+... l(θ)=θ12+θ22+...
有极值点的充分在该点处 f ′ ( x ) = 0 f^{'}(x)=0 f(x)=0,且在 f ′ ( x ) = 0 f^{'}(x)=0 f(x)=0 处左右两旁导数符号相反。参数空间正定(矩阵正定可以参考笔者二次型和矩阵正定的意义
求极值工具梯度下降梯度下降
达成的目标求函数最小值,一般用于解决最优化问题求loss最小值,loss最小说明此时模型最优;如在分类问题可采用交叉熵loss,说明此时该模型达到参数最优,即在该参数下系统最为有序,也即熵值最小(熵可以参见笔者机器学习、深度学习关于熵你所需要知道的一切;在回归问题中采用均方误差loss,说明参数估计已经达到了极大似然估计的最佳)
迭代策略 x n e x t = x n o w − f ′ ( x n o w ) × Δ x x_{next}=x_{now}-f^{'}(x_{now})\times \Delta x xnext=xnowf(xnow)×Δx θ n e x t = θ n o w − l ′ ( θ n o w ) × Δ θ \theta_{next}=\theta_{now}-l^{'}(\theta_{now})\times \Delta \theta θnext=θnowl(θnow)×Δθ
常用函数见高等数学系列,不胜枚举sigmoid、tanh、relu、一次函数(神经网络系数、MAE)、二次函数(MSE)、对数函数(logloss)
三、传播算法(BP)详细公式推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Ref:

  [1].神经网络之反向传播算法(BP)详细公式推导

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值