机器学习第二章单变量线性回归

_Itachi__

已于 2022-05-28 19:13:42 修改

阅读量395

点赞数 1

分类专栏：吴恩达机器学习文章标签：机器学习线性回归 python 算法人工智能

于 2022-05-28 17:57:44 首次发布

本文链接：https://blog.csdn.net/m0_63951116/article/details/125021041

版权

吴恩达机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

文章目录

第二章单变量线性回归（Univariate Linear Regression）
后言

第二章单变量线性回归（Univariate Linear Regression）

1 模型表示（model representation）

在数据集中

m表示训练样本的个数

x表示输入变量/特征

y表示输出变量/目标变量

（x，y）表示一个训练样本

$x^{(i)},y^{(i)})$ 表示第i个训练样本（这里的上标i不是幂函数，只是数据集训练样本的索引）

接下来我们看看监督学习算法是怎么工作的：我们向学习算法提供训练集，学习算法的任务是输出一个函数h，h代表假设函数（hypothesis），假设函数的作用是由输入变量x得到输出变量y

下一步我们要做的就是决定怎么表示这个建设函数h
$h_\theta(x) = \theta_0 + \theta_1(x)$
这个函数预测y是关于x的线性函数

在这里插入图片描述

这个模型被称为单变量线性回归

2 代价函数（cost function）

代价函数也被称为成本函数、平方误差函数、平方误差代价函数

要使输入变量得到尽量准确的y值，就要使h假设函数尽量正确，所以求解正确的 $\theta_0$ 和 $\theta_1$ 就显得尤为关键

我们希望预测值和实际值的差的平方误差和尽量小，用数学公式表达就是
$\frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2$
除以m是为了消除训练样本个数产生的影响，除以2是为了抵消求导所产生的2倍

因此我们得到了代价函数
$J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2\\ h(x^{(i)}) = \theta_0 + \theta_1x^{(i)}$
这个表达式随着 $\theta_0$ ， $\theta_1$ 的变化而变化，也有其它代价函数，但是平方误差代价函数可能是解决回归问题最常用的手段，平方误差代价函数对于大多数问题，特别是回归问题，都是一个合理的选择

训练的目标为最小化代价函数即
$minimiseJ(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2$
这就是线性回归的目标函数，minimize $\theta_0$ $\theta_1$ 的意思是我们要找到合适的 $\theta_0,\theta_1$ 使得后面的式子值最小，即我们通过选择 $\theta_0$ ， $\theta_1$ 的值，来获得最小的 $J(\theta_0,\theta_1)$ ，每一个成本函数都对应一个代价函数。我对代价函数的理解其实就是误差，误差越小，代表假设函数越好

但我们希望有一种算法能够自动计算出最小代价函数 $J$ （这里高亮是因为我觉得这是这一章最重要的，包括后面讲的梯度下降算法也是为了得到最小的代价函数 $J$ ），于是就引出了接下来讲的梯度下降算法

3 梯度下降（gradient decent）

梯度下降是很常用的算法，它不仅被用在线性回归上，还被广泛应用与机器学习的众多领域，梯度下降算法可以最小化任意函数 $J$ ，在这一节，我们用梯度下降法应用于线性回归中将代价函数J最小化。

在实际问题中函数 $J$ 的参数可能有很多个，如 $J(\theta_0,\theta_1,...,\theta_n)$ ，但这里为了简便演示，只取两个参数， $J(\theta_0,\theta_1)$ ，目标函数是 $minJ(\theta_0,\theta_1)$ ，梯度下降算法步骤为：首先给定 $\theta_0,\theta_1$ 的初始值，一般都赋值0，随后我们不停的一点点地改变 $\theta_0,\theta_1$ 的值，来使得 $J(\theta_0,\theta_1)$ 变小，直到我们找到 $J$ 的最小值或者局部最小值。

根据步骤我们可以得到梯度下降算法的公式为：
$\ \ until \ \ convergence\{\\\theta_j=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1),\ \ (for\ \ j = 0\ \ and\ \ j =1)\\\}$
这里有一个小细节需要我们注意，参数 $\theta_0,\theta_1$ 应该是同步更新的，而不是先更新 $\theta_0$ ，再更新 $\theta_1$ ，这样就可能得到不正确的结果

正确的计算方式为：
$\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)\\ temp1 = \theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)\\ \theta_0 = temp0\\ \theta_1 = temp1$
不正确的计算方式为：
$\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)\\ \theta_0 = temp0\\ temp1 = \theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)\\ (这里计算temp1的时候，\theta_0的值已经被改变了)\\ \theta_1 = temp1$
上式中的 $\alpha$ 代表学习率（learning rate）， $\alpha$ 决定了我们在梯度下降时沿着下降方向最大的方向下降时迈出多大的步子。如果 $\alpha$ 很大，那么梯度下降就会很迅速，我们会迈着大步子下山。如果 $\alpha$ 很大，可能导致更新赋值时代价函数越过收敛点，从而导致无法收敛。

所以我们需要选择合适的学习率 $\alpha$ 值，在那之后也不需要去改变 $\alpha$ 的值，梯度下降算法会自动采用更小的幅度，因为每一步更新赋值后导数项 $\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)$ 会越来越小，如下图所示，在到达最小值前，梯度下降的每一步下降的幅度都要比前一步要小，这里吴恩达老师为了更直观地演示，选择了一个参数的代价函数。在到达最小值后，导数项为0，这时再进行梯度下降就相当于什么都没做，它使你的解始终保持在局部最优点

在这里插入图片描述

4 梯度下降与代价函数相结合

我们将梯度下降与代价函数相结合，就得到了在单变量线性回归中应用梯度下降的算法

将 $J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2$ 和 $h(x^{(i)}) = \theta_0 + \theta_1x^{(i)}$ 代入到 $\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$ 中可得到
$\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1) = \frac{\partial}{\partial\theta_j}\frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \\ =\frac{\partial}{\partial\theta_j}\frac{1}{2m}\sum_{i=1}^{m}(\theta_0 + \theta_1x^{(i)}-y^{(i)})^2\\ j = 0:\ \ \frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1) = \frac{1}{m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})\ \ \ \ \ \ \\ j = 1:\ \ \frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1) = \frac{1}{m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})x^{(i)}$
当我们算出代价函数 $J$ 的斜率后，现在可以将它们代回我们的梯度下降算法（公式5）得到
$\ \ until \ \ convergence\{\\ \theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})\\\ \ \ \ \ \ \ \theta_1=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})x^{(i)})\\ \}$
这样是不是就很容易用代码的方式写出来了（虽然我不会哈哈哈哈）