为什么计算损失函数最优值采用梯度下降算法而不是直接求导等于0的深度解释

1. 概述

不论是在做数据的拟合还是在机器学习中计算最小的代价函数,都需要求目标函数的最优值(最大或最小值),在这其中,使用的方法都是梯度下降算法(或上升)进行多次迭代直到收敛(或接近收敛),这种方法确实是能够达到我们的目的;

但是这个时候我们就会思考,既然是求最优值,我们为什么不能直接对目标函数求导,让其导数等于零,然后得出结果呢?反而要用似乎更加复杂的梯度下降算法呢?

这个问题也一直困扰着博主,因此查找了很多资料来解释这个问题,同时在这个过程中还发现了很多有趣的问题,下面来一一呈现。

2. 解释
2.1 主要原因

在博主的机器学习回归理论推导——以线性回归为例一文中详细的推导了回归理论,通过代价函数对参数求导,令其为零,得出参数为:
在这里插入图片描述
参数的结果给出两个信息,同时也是直接求导不可行的原因:

  1. X的转置乘以X必须要可逆,也就是X必须可逆,但是实际情况中并不一定都满足这个条件,因此直接求导不可行;
  2. 假设满足了条件一,那么就需要去求X的转置乘以X这个整体的逆,线性代数中给出了求逆矩阵的方法,是非常复杂的(对计算机来说就是十分消耗性能的),数据量小时,还可行,一旦数据量大,计算机求矩阵的逆将会是一项非常艰巨的任务,消耗的性能以及时间巨大,而在机器学习中,数据量少者上千,多者上亿;因此直接求导不可行。

相较而言,梯度下降算法同样能够实现最优化求解,通过多次迭代使得代价函数收敛,并且使用梯度下降的计算成本很低,所以基于以上两个原因,回归中多数采用梯度下降而不是求导等于零。

2.2 其他解释

以下两个链接都是关于本问题的解释,有兴趣的可以点开看一看,但主要的意思也是博主上面解释的,只是还存在一些其他的解释。

  1. Why use gradient descent for linear regression, when a closed-form math solution is available?
  2. Why do we need a gradient descent anyway, if we can just take derivative of function and make it equal to 0, thus finding minimum?

希望能够帮助到大家,有什么问题可以 直接评论即可,喜欢有用的话可以点个赞让更多的人看到,如果不够详细的话也可以说,我会及时回复的。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhangpaopao0609

看星空看日落不如看我的眼眸

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值