为什么计算损失函数最优值采用梯度下降算法而不是直接求导等于0的深度解释

zhangpaopao0609

于 2019-01-23 14:47:07 发布

阅读量1w

点赞数 29

分类专栏：机器学习文章标签：回归中采用梯度下降算法而不是直接求导等于0求解最优值的深度解释采用梯度下降而不是求导等于零采用梯度下降而不是求导等于零

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41800366/article/details/86600893

版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文探讨在机器学习中，为何梯度下降算法比直接求导更适用于寻找最优解。文章指出，直接求导面临矩阵不可逆及计算复杂度高的问题，而梯度下降算法能有效解决大规模数据集的优化问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 概述

不论是在做数据的拟合还是在机器学习中计算最小的代价函数，都需要求目标函数的最优值（最大或最小值），在这其中，使用的方法都是梯度下降算法（或上升）进行多次迭代直到收敛（或接近收敛），这种方法确实是能够达到我们的目的；

但是这个时候我们就会思考，既然是求最优值，我们为什么不能直接对目标函数求导，让其导数等于零，然后得出结果呢？反而要用似乎更加复杂的梯度下降算法呢？

这个问题也一直困扰着博主，因此查找了很多资料来解释这个问题，同时在这个过程中还发现了很多有趣的问题，下面来一一呈现。

2. 解释

2.1 主要原因

在博主的机器学习回归理论推导——以线性回归为例一文中详细的推导了回归理论，通过代价函数对参数求导，令其为零，得出参数为：
在这里插入图片描述
参数的结果给出两个信息，同时也是直接求导不可行的原因：

X的转置乘以X必须要可逆，也就是X必须可逆，但是实际情况中并不一定都满足这个条件，因此直接求导不可行；
假设满足了条件一，那么就需要去求X的转置乘以X这个整体的逆，线性代数中给出了求逆矩阵的方法，是非常复杂的(对计算机来说就是十分消耗性能的)，数据量小时，还可行，一旦数据量大，计算机求矩阵的逆将会是一项非常艰巨的任务，消耗的性能以及时间巨大，而在机器学习中，数据量少者上千，多者上亿；因此直接求导不可行。

相较而言，梯度下降算法同样能够实现最优化求解，通过多次迭代使得代价函数收敛，并且使用梯度下降的计算成本很低，所以基于以上两个原因，回归中多数采用梯度下降而不是求导等于零。

2.2 其他解释

以下两个链接都是关于本问题的解释，有兴趣的可以点开看一看，但主要的意思也是博主上面解释的，只是还存在一些其他的解释。

希望能够帮助到大家，有什么问题可以直接评论即可，喜欢有用的话可以点个赞让更多的人看到，如果不够详细的话也可以说，我会及时回复的。

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhangpaopao0609 看星空看日落不如看我的眼眸

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。