透彻的讲解在梯度下降算法BP中,更新参数W的方法和原因,一看就懂系列

损失函数(代价函数)最小值,求解这类问题有个经典的方法叫做梯度下降法(SGD, Stochastic Gradient Descent),这个算法一开始先随机生成一个 [公式] ,然后用下面的公式不断更新 [公式] 的值,最终能够逼近真实结果。
这个公式看似简单,但是由来涉及到了很多知识
本篇重点解释一下这个公式的原因,所以过程我只是叙述,推导过程我们可以看其他同学写的文章
在这里插入图片描述
y=wx+b这个函数,我们要去进行拟合的函数,我们现在只是知道一些数据点,但是不知道w和b的参数,我们怎么办?
我们正常的手动计算可能比较简单,找到两个点,求一下函数解就可以,但是放到计算机里,这个过程可能不太现实,或者说放到神经网络中去进行计算,这个种方式就不太合适,因为我们要学习的是神经网络是如何进行学习这个过程的。

1.求的损失函数(代价函数)

首先我们想象一下,我们已经有数据点了,那么我们肯定有一个貌似和曲线一样的点,然后我们要找到一个w和b,让它生成的拟合函数和这个点群最接近,怎么描述这个最接近,那么我们这里说它是损失,找到的这个曲线和点群之间的损失最小就可以了。
那么我们可以计算这个损失函数,怎么计算,其实很简单就是求方差的平均值,这个高中学过的。

2,求极小值

我们在步骤1,求的了损失函数,我们要求肯定是损失最小,这样才能让求的w和b最接近点群的的真实曲线,那么我们要做的是求损失函数的极小值,极小值怎么求,有的同学可能说,求导就可以,但是计算机不擅长求解微分方程,计算机擅长的是通过插值法(牛顿下山法、弦截法),进行海量的尝试,一步一步把极值“试”出来。(https://editor.csdn.net/md/?articleId=122168424),所以我们要怎么求呢?

3,梯度下降法

首先我们回忆一下,
a.导数也叫微商,它是微分的商值,
在这里插入图片描述b.积分既就是求面积
c.偏导也就是对多个自变量分别求导,(不同的自变量之间作为常量存在)
那如何求的极小值呢,我们假设在极小值的右边找到一个点,我们只需要让上述损失函数中的自变量(转换后,自变量变成了w),让w不断的减小,但是在减小的俄同时还需要落入到曲线上,不能落入到曲线外,这个要怎么解决,我们这里需要用到微分的,
我们给定一个学习率n,那么只要这个n和我们损失函数与w的偏导数相乘,那么可以得到一个(Delta)W,这个DeltaW足够小,所以w减去(Delta)W,那么(Delta)E=A(Delta)w(plus)-A(Delta)w他还是会落入到曲线上.(w(plus)就是下边公式中的w加)
就这样,慢慢的参数w减小,知道循次数结束。

在这里插入图片描述

4,循环结束后的损失率

我们可以打印出损失吕,损失率随着循环的迭代逐渐减小,然后我们打印出全局变量w和b,就可以获得这个拟合的曲线了

5,不用w和b的值的方案模型加载

当然我们也可以直接生成模型pht格式的,然后通过加载模型的方式进行数据预测也是可以的。

6,其他注意,

在步骤3的c中,我们假设在极小值的右边找到一个点,有同学文如果我们的点在左边,效果一样吗,我的回答是效果一样的,
应为在左边的话,例如,我们的左边的w是在负值的坐标轴上,那么我们这个时候,求的梯度也是负数,这个时候减去梯度得到的是加梯度了,我们的w也是向着极小值去迭代的。

7.总结:

学到这里,我想我应该把这个减梯度的梯度下降算法讲完了,喜欢的朋友可以关注我

8.题外讲解:

梯度,梯度是向量方向函数值变化率醉倒的方向,所以我们用的是梯度下降的方法求极小值,这样速度最快。
在三维曲面中,有很多个切线的向量,但是其中叫梯度的却只有一个。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

已下架不支持订阅

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鼾声鼾语

感谢您的支持鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值