吴恩达机器学习第一部分第3章学习笔记-CSDN博客

本文链接：https://blog.csdn.net/m0_71392515/article/details/131545524

本文介绍了线性回归模型的基本概念，包括训练数据集、输入变量、输出变量和样本总数。接着详细阐述了代价函数，用于衡量模型预测值与实际值的差距。通过对代价函数的分析，探讨了如何找到最小化误差的权重和截距，展示了代价函数的图像和最小值点的求解过程。

摘要由CSDN通过智能技术生成

说明：本文为本人学习本课程的笔记，课程链接为

【(强推|双字)2022吴恩达机器学习Deeplearning.ai课程】

https://www.bilibili.com/video/BV1Pa411X76sp=8&vd_source=1a7101e2cd4837c57a0824d2cc5a5e56

如需要更深层次地掌握知识，请自行学习视频课程。

第三章线性回归模型

3.1 线性回归模型的定义

回归模型的作用在于预测对于某个输入值的应有输出值。如下图，下图体现了某地区房屋面积与售价的关系。

下面明确几个在回归模型中的常用概念。

1.训练数据集(Trainning Set)：训练数据集是用来训练模型的数据。如上图左边的表格，共有2列，47行。

2.输入变量/特征(Input Variable/Feature)：用x表示，如上表的第一列，表示了该地区房屋面积。

3.输出变量/目标(Output Variable/Target)：用y表示，如上表的第二列，表示了该地区房屋售价。

4.样本总数：用m表示，能够看出，m=47。

5.单个训练数据：用 $(x,y)$ 表示，其中 $(x^{(i)},y^{(i)}),i\leq m$ 表示第i个训练数据

将训练数据集(Training Set)输入到学习算法(Learning Algorithm)中，就得到了回归模型(Model)。

回归模型用 $f$ 表示，写作 $\hat{y}=f(x)$ 。

对回归模型输入样本特征(Feature)，就能够得到目标输出(Target)的估计值(Estimated y)

线性回归模型的表达式类似于一次函数，表示为：

$\hat{y}=f_{w,b}(x^{(i)})=wx^{(i)}+b$

这种回归模型又称为一元线性回归模型。

3.2 代价函数(Cost Function)公式

$\hat{y}=f_{w,b}(x^{(i)})=wx^{(i)}+b$ ，这里的w表示weight。

定义代价函数:

$J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}$

其中， $\hat{y}^{(i)}-y^{(i)}$ 称为回归分析的误差(Error)，分母中的系数2是为了方便微分。

代价函数的值是误差平方和的平均数的一半，表示了回归函数与实际值的差距大小。

考虑线性回归模型的表达式 $\hat{y}=f_{w,b}(x^{(i)})=wx^{(i)}+b$ ，代价函数又可写作:

$J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}=\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})^{2}$

3.3 对代价函数进行分析

3.3.1 一元代价函数的图像

提出代价函数的目的是为了寻找合适的系数w、b，使得对于所有的 $(x^{(i)},y^{(i)})$ , $\hat{y^{(i)}}$ 能够尽可能地接近 $y^{(i)}$ 。也就是说，需要寻找代价函数的最小值 $min_{(w,b)}J(w,b)$ 。

下面考虑 b=0 的情况，也就是 $\hat{y}=f_{w}(x^{(i)})=wx^{(i)}$ 。

如上图，此时的代价函数简化为 $J(w)=\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}-y^{(i)})^{2}$ ，寻找其最小值。

考虑如下样本：

取不同w值(w=0,0.5,1,1.5,2…)，根据代价函数公式计算J(w)的值，将J视为w的函数，将对应的 (w,J(w)) 点画在下图所示的坐标系中，得到J(w)-w图像。

根据下图能够发现，J-w曲线是一个抛物线曲线，其最小值在w=1时取到，事实上，通过观察代价函数表达式 $J(w)=\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}-y^{(i)})^{2}$ ，也能得到这一结论。

3.3.2 代价函数的的最小值

代价函数的表达式为 $J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}=\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})^{2}$

下面，用 $\sum A$ 表示 $\sum_{i=1}^{m}a^{(i)}$ ,用 $\sum A^{2}$ 表示 $\sum_{i=1}^{m}(a^{(i)})^{2}$ ，用 $\sum AB$ 表示 $\sum_{i=1}^{m}a^{(i)}b^{(i)}$

其中， $a,b = x,y ; A,B=X,Y$ 。

求偏导数，有

$\frac{\delta J}{\delta w}=\frac{1}{2m}\sum_{i=1}^{m}\cdot 2(wx^{(i)}+b-y^{(i)})\cdot x^{(i)}=\frac{\sum X^{2}}{m}\cdot w+\frac{\sum X}{m}\cdot b-\frac{\sum XY}{m}$

$\frac{\delta J}{\delta b}=\frac{1}{2m}\sum_{i=1}^{m}\cdot 2(wx^{(i)}+b-y^{(i)})=\frac{\sum X}{m}\cdot w+\ b-\frac{\sum Y}{m}$

求驻点，令 $\frac{\delta J}{\delta w}=\frac{\delta J}{\delta b}=0$ ，解得

$w_{0}=\frac{m\sum XY-\sum X\cdot \sum Y}{m\sum X^{2}-(\sum X)^{2}}$

$b_{0}=\frac{\sum Y}{m}-\frac{\sum X}{m}\cdot w_{0}$

即唯一驻点坐标 $(w_{0},b_{0})=(\frac{m\sum XY-\sum X\cdot \sum Y}{m\sum X^{2}-(\sum X)^{2}},\frac{\sum Y}{m}-\frac{\sum X}{m}\cdot w_{0})$

容易验证，该点坐标对应的w、b值，即为使代价函数取最小值时的w、b值。

3.3.3 代价函数的图像

如图，二元代价函数 $J(w,b)$ 的图像如图所示。这是一个抛物面，底部即为其最小值点。

将抛物面投影在 $xOy$ 平面上，即可得到等高线图，如图。

对于任意一组w、b取值，其本身对应的代价函数值一一对应了抛物面或等高线上的一个点。

吴恩达 机器学习 第一部分 第3章 学习笔记

第三章 线性回归模型