之杰的机器学习笔记：2.单变量线性回归

最新推荐文章于 2023-07-17 15:54:40 发布

郑之杰

最新推荐文章于 2023-07-17 15:54:40 发布

阅读量265

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_39460188/article/details/81253647

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

现在我们开始讨论监督学习中的回归问题，这里我们从最简单的例子开始。

我们不妨可以思考一个非常理想化的问题：假设有一棵小树苗，当我们给它浇水时它会生长，如果营养足够可以认为浇水量x和树苗的高度h服从一定的线性关系。也就是说，如果我们浇水x升树苗会长高θx米，那么浇水2x升的话树苗就会长高2θx米...这听上去非常理想，事实上树苗的生长仍受到自然环境的影响。

上述问题的简单之处主要体现在两点：第一，我们假设浇水量x和树苗高度h服从线性关系，这种问题被称作线性回归（Linear Regression）；第二，我们只考虑了浇水量对树苗高度的影响，即这是单变量的。因此我们在这里讨论的问题被叫做单变量线性回归。

现在我想要知道当我任意浇水x升时小树苗会长多高，一种方法是我们可以进行实验，但是这种方法是离散的、有限的，无论如何也不可能记录x的连续区间内的全部结果。那么如何让计算机解决这个问题呢？

首先需要对这个问题进行建模，这里即建立单变量线性回归模型的一种形式：

其中hθ被称作假设函数（Hypothesis），也就是我们渴望得到的目标函数——即树苗生长后的高度。θ0和θ1是模型的参数，分别表示树苗的初始高度和生长率（即每浇1升水增高的高度），x表示浇水量。

对于计算机来说，他不能理解这些参数的生动含义，事实上我们也可以理解为x是一个特征，h是一个目标变量，我们需要通过回归建立h与x的关系，这种思路更普适于一般问题。对人类来说，当你搞不清楚这个关系，不妨去做一些实验，从实验数据中寻找规律。计算机与人类一样，是需要经过训练的。我们可以采集足够多的离散（x，h）数据，这些数据被称作训练样本（Training Example），我们把这些样本称作一个训练集（Training Set）。提供给计算机一个训练集，往往是机器学习中首要的甚至是唯一的人类干涉的问题。

那么计算机接下来需要干什么呢？当我们收集到训练集提供给计算机，事实上我们也只得到了若干离散点上对应的函数关系（假设这些实验数据是足够可信的），仍然不能在x的整个连续区间上找到h-x对应关系。这里我们的思路是能否让计算机通过已知数据找到一个函数，使得这个函数在这些数据点上的值与实际数据值（即若干测量点上回归得到的树苗长高量与实际测得的长高量）偏差最小。如果读者有一定的误差分析理论，会立即意识到一个更好的方法是使其残差平方和最小。残差即上述偏差，取平方的原因是对正负偏差一视同仁。

于是我们引入代价函数（Cost Function），也叫做平方误差函数：

这里的y和h分别是指实验测得值与回归得到的目标函数值，m是训练集的大小。至于前面的系数可以看做是对结果的归一化，实际上系数的有无并不影响最后的结果。

现在我们来理解这个式子：读者可能注意到这个公式的自变量变成了θ0和θ1，这是为什么呢？事实上，决定一个单变量线性函数的自由度只有2个，也就是说在一个2维笛卡尔坐标系中需要2个变量来确定我们的回归函数。我们只需要找到合适的θ0和θ1，就可以拟合出和实验数据足够拟合的函数。当函数值J足够小时，也就意味着回归直线足够体现出测量数据的规律，这正是我们希望通过计算机实现的。

现在让我们来总结一下解决树苗高度预测问题我们现在的进展：

似乎离胜利只有一步之遥了。现在我们的问题是如何求出代价函数的最小值，最值的求法有很多种，这里我们介绍机器学习中常用的一种算法：梯度下降（Gradient Descent）。

梯度是分析学中提出的名词。如果读者感到陌生也没关系，我们可以这样来理解梯度：梯度体现的是一个函数上升（下降）最快的方向。对于大家最熟悉的二维笛卡尔坐标系，梯度即一个函数的斜率。由于斜率符号的定义，具体表现为：二维函数的梯度是指函数上升最快的方向，其大小等于函数在该点的斜率值。那么对于求最小值问题，我们只需要对目标函数沿梯度的反向不断进行修正，不就可以求得它的最小值了吗？

梯度下降的公式可以表达如下：