AI基础：从线性回归到梯度下降-CSDN博客

本文链接：https://blog.csdn.net/qq_53324833/article/details/140042940

一个简单的问题：

如果此时你正站在迷路缭绕的山坡上，能见度不高，但是你又想去往最低的山谷的位置，怎么走？

在这里插入图片描述

很简单，哪里陡那就往那里走呗——而这就是梯度下降算法的思想。

古话说：“先发制于人，后发而制于人。”

想要做到有效先发呢，就得做到对事务的准确预测，要预测就得先掌握其规律。规律从哪里来？当然是从数据上来，所以关键就是要找到数据与数据之间的关联。

比如气温越高，雪糕的销售额也就越高，这个就是数据与数据之间的关联：

在这里插入图片描述

还有一个经典的例子，就是房子价格与面积的关系：

在这里插入图片描述

从所给数据不难看出二者是有正相关关系的。

但是要做到准确的预测的话必须要得到它们之间的函数关系式，这样我们只需要给出一个面积值那么立马就能直接得到价格是多少了。

要求函数关系式的话，那么需不需要做一条曲线将坐标系中的所有的点都穿过去呢？明显是不可以的，因为当有新数据再加进来的时候，往往新数据根本就不在这条曲线上：

在这里插入图片描述

这样吃力不讨好的行为（勾画曲线），通常叫做过拟合。

对于这种明显有相关关系的数据往往最朴素的方法反而效果更好，直接用一条直线去拟合这些数据：

在这里插入图片描述

直线的话就好搞了，就是一次函数 y=kx+b 嘛，只要把这条直线的斜率和截距都找到的时候，那么这条直线就自然被找出来了。

而我们找到最合适的这条直线的这些动作，我们就称作线性回归。

那么哪条直线更合适呢？毕竟有那么多：

在这里插入图片描述

这很难说，那么既然很难决定，那就全部一起考虑，跟选秀一样，到时候留下最合适的那个就可以了。

既然是选秀，那么就会有标准，标准是什么呢？

以下图中的一条黑线和红线为例，这两条都是拟合真实数据出来的直线（二者都是理想化的估算数据）：

在这里插入图片描述

不难看出二者与真实数据之间都是有差距的，但我们可以把每个点的真实数据和估算数据的误差给算出来，在图上可以表现为真实数据竖直到这条线的距离是多长：

在这里插入图片描述

可以明显看到，黑线的距离之和是要比红线的距离之和要短的，那么我们就可以认为黑线更优秀，和原数据更加符合。

接下来使用数学语言来描述一下这个事情：

假如真实数据是 y1， y2， y3， y4， y5，而估算数据是 y^ = kx+b：

在这里插入图片描述

那么其距离之和可以表示为：

在这里插入图片描述

但是此时有一个问题，点在线上方的距离算出来是正的，而点在线下方算出来的距离呢则是负值：

在这里插入图片描述

一正一负相加是会抵消掉一些距离的，那么算出来的结果肯定就会出问题，为了消除正负距离带过来的影响，我们可以对每一项进行取平方的操作：

在这里插入图片描述

这样再加起来就正确了，这同样可以反映出距离之和的大小。

但还有一个新的问题，假如红线不取五个点，而是取十个点怎么办？因为取的点越多那么累加的距离的平方和肯定就越大，所以在取样点的数量不一样的时候是根本没办法比较的，这怎么办？答案就是对他们取平均，主打一个众生平等：

在这里插入图片描述

这样取平均之后就可以进行比较了，那么这样的话选秀的标准也就自然出来了：

在这里插入图片描述

上面这个值谁求出来的小，那么谁的线就和原数据符合的越好。其还有另外一个名称：平均平方误差MSE。

想要解决一负一正相加抵消的问题，那在这里不取平方取绝对值可以吗？

当然可以，取绝对值的方式叫做平均绝对误差MAE：

在这里插入图片描述

二者在不同的场景之下有不同的优缺点，但是对于梯度下降呢我们一般使用MSE，因为MSE的数学性质更好一些（肯定比求绝对值好算啊）。

在上面的情况中，在少数几条直线的情况下，可以一眼就看出来或者说是稍微的计算一下就可以得出来拟合的较好的直线，但是如果候选者有无数多个，怎么办呢？

简单列个表可能更清晰一些：

在这里插入图片描述

我们的任务就是把所有的这个MSE的值全算出来然后挑出来最小的那一个 Zmin，而最小的那一个它所对应的 k 值和 b 值就是你要找的直线了。

上面的过程简单说就是通过一个 k 一个 b 值来计算 MSE 值 z，而这不就是一个以 k 和 b 为自变量，z 为函数值的二元函数吗？

在这里插入图片描述

而二元函数长什么样？可以简单的看一下其几何图像：

在这里插入图片描述

而这个 f(k , b) = z 这个函数也被称为损失函数，刚刚不是说任务就是要把这些 z 当中的最小值 Zmin 给找出来吗？对应到这个损失函数其实也就是要把这个损失函数的最低的位置找出来。

那么现在我们的任务就变成了找到这个山谷的最低的位置了，要讲明白下山，我们就得从上山讲起：

在这里插入图片描述

其实就像地图一样，方便我们定位和指路，如果能有一个像导航一样的上山神器就好了。

还真有！其实就是以前学习过的导数。

我们先看二维坐标系下的导数的相关概念，下图是一个一元函数 f(x)，假如现在我们是在 x0 的位置，我们可以对这个点求导数，也就是这个点的切线的斜率，可以看到在 x0 这一点上的导数值是大于 0 的：

在这里插入图片描述

而导数值大于 0 实际上就是在告诉我们这个 x0 要往增大的方向走函数值才能变大才能上坡。

再看一个点 x1，该点上切线斜率实际上是小于零的，这就意味着这个 x1 要往减小的方向去走函数值才能变大才能上坡：

在这里插入图片描述

这样一看使用导数值来指明方向还挺好用的，但是只告诉了方向还不太够啊，最好是还能告诉我一步要走多远，然后走到顶了最好还可以叫我停下来这样是最好的。

恰好导数也能够做这个事情。

我们直接拿导数的大小作为步子的长短，假如我们还是在 x0 的这个位置，然后求出这一点的导数是等于二的，那么我们直接拿这个二作为步子的长短，x0 呢就应该要往增大的方向加二来到这个位置对应的函数值。重复这个步骤，随着越来越靠近山顶的位置，坡度就越来越小，那么步子呢也会越来越小，来到山顶的时候导数为零那么直接就是不走了，而这就是我们想要的：

在这里插入图片描述