斯坦福大学课程机器学习2 模型与代价函数_证明代价函数的形状为抛物线的方法-CSDN博客

本文链接：https://blog.csdn.net/kowems/article/details/91410310

这篇博客详细介绍了机器学习中模型表示和代价函数的概念。模型表示通过训练样本(x(i),y(i))构建学习函数h，用于预测输出。代价函数用于评估预测函数的准确性，通常采用平方差作为表达形式。文章深入探讨了代价函数的直观理解，包括二维和三维的几何表示，以及如何通过最小化代价函数找到最佳模型参数。" 126694726,15278779,Java毕业设计：学生生活管理系统,"['Java', 'Mybatis', '前端开发', '数据库', 'Web开发']

摘要由CSDN通过智能技术生成

模型表示

我们使用 $x^{(i)}$ 表示输入变量，使用 $y^{(i)}$ 表示输出或目标变量。将( $x^{(i)}$ , $y^{(i)}$ )称为训练样本。我们称一列训练样本( $x^{(i)}$ , $y^{(i)}$ );i=1,…,m为训练集。其中，i是表示一个训练集样本的索引，不是变量的幂次方。

针对监督学习问题的稍微正式一些的描述是，我们将给定训练集喂给学习算法，从而得到学习函数h:X -> Y，所以h(x)就是预测输出值y的预测器。该过程如下图：
Alt

代价函数

我们使用代价函数来对预测函数的准确性进行评估。评估函数使用平方差进行表达。我们使用线性预测函数举例，假设预测函数为 h(x) = $\theta_{0}$ + $\theta_{1}$ * x，其代价函数为 Alt
拆解该表达式，即为 $\frac{1}{2}\bar{x}$ ，其中 $\bar{x}$ 代表了 $h(x_{i}) - y_{i}$ 的平方，即预测值与实际值差的平方。

该函数也可称之为"Squared error function" 或者是"Mean squared error"。这里的 $\frac{1}{2}$ 是为了便于计算梯度下降，也为了减少导数项。下面的图概述了代价函数：
Alt

代价函数之直观认识I

当我们尝试从视觉角度考虑代价函数，训练的数据集将分布在x-y坐标系上。然后我们用一条线连接所有分布在x-y坐标系中的点。

我们假设 $\theta_{0}$ 为0，预测函数变为 h(x) = $\theta_{1}$ * x，那么其在坐标系中将是一条穿过（0,0）坐标的任意一条线。其代价函数将是一条二维抛物线，如下图所示。

我们的目的是得到一条最可能的线。这条线将是点到线的最小距离的平方差。这条线将穿过训练集中的所有点。在这样一个场景下， $J(\theta_{0},\theta_{1})$ 的值为0。下图展示了为0的代价函数所在的理想位置。
Alt
当 $\theta_{1}$ = 1时，我们得到一个斜率为1的穿过所有训练数据点的模型。当 $\theta_{1}$ = 0.5时，我们看到到达数据集点的垂直距离增大了。
Alt
这使得代价函数值增长到了0.58。画出几个其他的点后，形成了下图：
在这里插入图片描述
因此我们的目标是尽量缩小代价函数的值，本例中， $\theta_{1}$ = 1是全局最小。

代价函数之直观认识II

当 $\theta_{0}$ 不为0时，预测函数变为 h(x) = $\theta_{0}$ + $\theta_{1}$ * x，那么其在坐标系中将是一条不穿过（0,0）坐标的任意一条线。如下图左侧图所示。而其代价函数将是一个三维的抛物椎体。

轮廓图有大量轮廓线组成。同一轮廓线上的任意两点，代价函数值永远相同。如下列右侧图所示：
在这里插入图片描述
选取任何颜色的线，并在该线上取任一点，我们都将得到相同的代价函数值。例如上图中绿色线上的三个绿色点，都拥有相同的 $J(\theta_{0},\theta_{1})$ 值。轮廓线上的三点，所对应的预测函数，在坐标系中如上方左图所示。另外在轮廓线中随机取一点，可得 $\theta_{0}$ 为360， $\theta_{1}$ 为0，则该预测函数在坐标系中如下方左图所示。
在这里插入图片描述
当 $\theta_{0}$ 取值360， $\theta_{1}$ 取值0时， $J(\theta_{0},\theta_{1})$ 的值更靠近中心，但依然存在误差。轻微的转动预测函数使得结果更逼近数据集。

如上图所示，我们尽量的最小化代价函数，得到 $\theta_{0}$ 为250， $\theta_{1}$ 为0.12，画出该点，几乎可以将该点放入轮廓图的最内圈。