深度学习笔记10/23——梯度下降(Gradient Descent)与导数

梯度下降

先从平面坐标系来看,建立W-J(W)坐标系

假设代价函数J(W)的图像如图所示,通过以下的公式对每次迭代的W进行更新(上下公式相同)

W:=W-\alpha \frac{dJ}{dW}

W:=W-\alpha dW

\alpha表示学习率,可以控制我们在每一次迭代或者梯度下降法中的步长大小。这里dW代表J(W)W的导数。因此不断减去导数就会让W的值不断趋近J(W)函数的极值点。

所以在原先的二维函数J(W,b)中,可以用以下公式进行迭代:


W:=W-\alpha \frac{dJ(W,b)}{dW}

b:=b-\alpha \frac{dJ(W,b)}{db}

这就是所谓的反向传播。

反向传播的目的是根据网络的输出误差来调整网络的权重,使网络的预测更接近实际的标签。

ChatGPT提供的反向传播算法的基本思路如下:

  1. 前向传播:从输入层开始,通过每一层直到输出层进行计算。每个节点的输出是基于其权重、偏置和激活函数的。

  2. 计算误差:在输出层,你可以计算网络的预测和实际标签之间的误差。这通常使用损失函数J(W,b)来完成。

  3. 反向传播误差:这是算法的核心部分。从输出层开始,计算相对于每个权重的误差梯度。梯度是损失函数的导数,它指向损失最大增加的方向。我们的目标是减少损失,所以我们需要相反的方向来调整权重。

  4. 权重更新:使用上一步计算出的梯度来更新每一层的权重。这通常使用某种优化算法来完成,例如梯度下降。

  5. 迭代:重复上述过程(前向传播、计算误差、反向传播误差、权重更新)直到网络的预测误差达到可接受的范围或达到预定的迭代次数。

也就是说在前向传播的基础上,通过梯度下降来回调损失函数J(W,b)的参数,这是反向传播的主要功能。

逻辑回归的梯度下降

前向传播的流程图如上,此时损失函数是L(a,y),是一个二元函数,但是我们在模型中的参数只有a(损失函数中的y是指样本)。

因此要进行梯度下降,需要:

        1.先计算\frac{\partial L(a,y)}{\partial a}

        2.继续对z求导,往回计算出\frac{dL}{dz}

        3.再根据\frac{dL}{dz}来计算出\frac{\partial L}{\partial W}\frac{\partial L}{\partial b}

在上述例子中,最终:

                ​​​​​​​        ​​​​​​​        ​​​​​​​        \frac{\partial L}{\partial W_1}=dW_1=x*dZ 

                                         db=dz

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Zack Wesson

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值