透彻的讲解在梯度下降算法BP中，更新参数W的方法和原因，一看就懂系列

最新推荐文章于 2023-06-29 11:27:48 发布

鼾声鼾语

最新推荐文章于 2023-06-29 11:27:48 发布

阅读量1.6k

点赞数

文章标签：算法神经网络机器学习

本文链接：https://blog.csdn.net/pvmsmfchcs/article/details/122246563

版权

pytorch深度学习一看就懂系列和自动驾驶相关专栏收录该内容

180 篇文章 25 订阅

已下架不支持订阅

透彻的讲解BP算法梯度下降，和反向传播过程，一看就懂

1.求的损失函数（代价函数）
2，求极小值
3，梯度下降法
4，循环结束后的损失率
5，不用w和b的值的方案模型加载
6，其他注意，
7.总结：
8.题外讲解：

损失函数（代价函数）最小值，求解这类问题有个经典的方法叫做梯度下降法（SGD, Stochastic Gradient Descent），这个算法一开始先随机生成一个 [公式] ，然后用下面的公式不断更新 [公式] 的值，最终能够逼近真实结果。
这个公式看似简单，但是由来涉及到了很多知识
本篇重点解释一下这个公式的原因，所以过程我只是叙述，推导过程我们可以看其他同学写的文章
在这里插入图片描述
y=wx+b这个函数，我们要去进行拟合的函数，我们现在只是知道一些数据点，但是不知道w和b的参数，我们怎么办？
我们正常的手动计算可能比较简单，找到两个点，求一下函数解就可以，但是放到计算机里，这个过程可能不太现实，或者说放到神经网络中去进行计算，这个种方式就不太合适，因为我们要学习的是神经网络是如何进行学习这个过程的。

1.求的损失函数（代价函数）

首先我们想象一下，我们已经有数据点了，那么我们肯定有一个貌似和曲线一样的点，然后我们要找到一个w和b，让它生成的拟合函数和这个点群最接近，怎么描述这个最接近，那么我们这里说它是损失，找到的这个曲线和点群之间的损失最小就可以了。
那么我们可以计算这个损失函数，怎么计算，其实很简单就是求方差的平均值，这个高中学过的。

2，求极小值

我们在步骤1，求的了损失函数，我们要求肯定是损失最小，这样才能让求的w和b最接近点群的的真实曲线，那么我们要做的是求损失函数的极小值，极小值怎么求，有的同学可能说，求导就可以，但是计算机不擅长求解微分方程，计算机擅长的是通过插值法（牛顿下山法、弦截法），进行海量的尝试，一步一步把极值“试”出来。（https://editor.csdn.net/md/?articleId=122168424），所以我们要怎么求呢？

3，梯度下降法

首先我们回忆一下，
a.导数也叫微商，它是微分的商值，
在这里插入图片描述 b.积分既就是求面积
c.偏导也就是对多个自变量分别求导，（不同的自变量之间作为常量存在）
那如何求的极小值呢，我们假设在极小值的右边找到一个点，我们只需要让上述损失函数中的自变量（转换后，自变量变成了w），让w不断的减小，但是在减小的俄同时还需要落入到曲线上，不能落入到曲线外，这个要怎么解决，我们这里需要用到微分的，
我们给定一个学习率n，那么只要这个n和我们损失函数与w的偏导数相乘，那么可以得到一个（Delta）W，这个DeltaW足够小，所以w减去（Delta）W，那么（Delta）E=A（Delta）w(plus)-A（Delta）w他还是会落入到曲线上.(w(plus)就是下边公式中的w加)
就这样，慢慢的参数w减小，知道循次数结束。

在这里插入图片描述

4，循环结束后的损失率

我们可以打印出损失吕，损失率随着循环的迭代逐渐减小，然后我们打印出全局变量w和b，就可以获得这个拟合的曲线了

5，不用w和b的值的方案模型加载

当然我们也可以直接生成模型pht格式的，然后通过加载模型的方式进行数据预测也是可以的。

6，其他注意，

在步骤3的c中，我们假设在极小值的右边找到一个点，有同学文如果我们的点在左边，效果一样吗，我的回答是效果一样的，
应为在左边的话，例如，我们的左边的w是在负值的坐标轴上，那么我们这个时候，求的梯度也是负数，这个时候减去梯度得到的是加梯度了，我们的w也是向着极小值去迭代的。

7.总结：

学到这里，我想我应该把这个减梯度的梯度下降算法讲完了，喜欢的朋友可以关注我

8.题外讲解：

梯度，梯度是向量方向函数值变化率醉倒的方向，所以我们用的是梯度下降的方法求极小值，这样速度最快。
在三维曲面中，有很多个切线的向量，但是其中叫梯度的却只有一个。
在这里插入图片描述

鼾声鼾语

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
透彻的讲解在梯度下降算法BP中，更新参数W的方法和原因，一看就懂系列

损失函数（代价函数）最小值，求解这类问题有个经典的方法叫做梯度下降法（SGD, Stochastic Gradient Descent），这个算法一开始先随机生成一个 [公式] ，然后用下面的公式不断更新 [公式] 的值，最终能够逼近真实结果。这个公式看似简单，但是由来涉及到了很多知识本篇重点解释一下这个公式的原因，所以过程我只是叙述，推导过程我们可以看其他同学写的文章y=wx+b这个函数，我们要去进行拟合的函数，我们现在只是知道一些数据点，但是不知道w和b的参数，我们怎么办？
复制链接

扫一扫