深度学习-梯度下降法是什么样的？

最新推荐文章于 2024-09-04 15:33:47 发布

qq924178473

最新推荐文章于 2024-09-04 15:33:47 发布

阅读量2.1k

点赞数

分类专栏：深度学习-理论文章标签：梯度下降深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h_jlwg6688/article/details/52649883

版权

深度学习-理论专栏收录该内容

18 篇文章 0 订阅

订阅专栏

介绍梯度下降法的blog太多了，而且讲的都很细，但是我自己没大理解梯度更新的公式，最近想明白了，所以记下来。

假设要优化的代价函数是这样滴：，如下图：

，其中横坐标是Θ，纵坐标是C。

既然我们的目标是找到一个Θ，使得代价C最小，那么在上图中可以直观的看到C在哪最小。

现在我们任取一个Θ，比如说在C轴右侧虚线处取一个Θ，在这个Θ处，我们求其导数，这个导数肯定是正的，通过观察图片，我们发现这个Θ不能使得C最小，Θ应该再取小一点，Θ现在是大于0的，如果要让Θ变小肯定是减去个大于零的数，而Θ的导数正好是大于零的，那我们正好可以让Θ去减去它的导数，这样不就达到我们的目的了吗？

当然Θ为什么不能减去一个任意的大于零的小数呢？这个先不说，先看看如果Θ减小之后，再求其导数时候，它的导数应该是变小了，我们发现Θ减小的步伐长度越来越小，这不就是个很好的优点吗？

我们再来看，若一开始Θ在C轴的左侧的情况，这个时候，Θ是小于0的，而Θ的导数也是小于零的，为了使C值最小，很直观的看到，应该让Θ往右移动，即增大Θ的值，那我们还继续用让Θ减去Θ的导数的方法，这样不也正好达到我们的目的了吗？而且Θ增大的步伐长度也越来越小，也是个不错的优点。

综合上述分析：

就知道这个式子的意义跟来历了，其中a也是调节步伐长度的一个超参数。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。