梯度下降法入门解析

最新推荐文章于 2022-10-08 10:36:23 发布

长飞哥

最新推荐文章于 2022-10-08 10:36:23 发布

阅读量391

点赞数 1

分类专栏：机器学习文章标签：梯度下降反向传播

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tigerda/article/details/82685237

版权

机器学习专栏收录该内容

27 篇文章 0 订阅

订阅专栏

1、梯度下降法是做什么用的？

机器学习中都有一个代价函数，训练时就是要使代价函数值最小，这样假设的值和实际值就越接近。而代价函数中有参数，要使代价函数最小，则需要调节参数，这个过程就是最优化的一个过程，梯度下降法是一个最优化的方法。

2、代价函数对其中某参数求偏导数，即得到此参数对应的梯度。而代价函数要达到最小，就要下降，下降有慢有快，下降最快的方向是此参数对应的梯度的反方向，参数朝着其梯度反方向变化，则函数值以最快的速度减小，为什么？见下面文章。为什么梯度反方向是函数值局部下降最快的方向？

3、函数在最优值时，有最优的参数，所以我们每次迭代，更新的其实是相关的参数。

4、反向传播算法

根据上面的公式，对于神经网络，每层的权值Wi都可以计算SSE对wi的偏导数，从而来更新wi值，这样反向传播一次就更新了所有的权值。所以反向传播是为了计算梯度（偏导数），而误差的反向传播，个人理解并不是误差从后往前传播，而是误差（代价函数）从后向前，以链式法则，求SSE对各个层中权值wi的偏导数。这样反向传播和梯度下降合起来作为网络学习的优化方法。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。