吴恩达《机器学习》笔记——第二章《单变量线性回归》

肥胖边缘疯狂蹦迪

已于 2022-05-17 14:16:43 修改

阅读量545

点赞数

分类专栏：机器学习文章标签：机器学习 python 人工智能

于 2022-05-09 20:38:03 首次发布

本文链接：https://blog.csdn.net/qq_43572747/article/details/124665177

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

2、Linear regression with one variable（单变量线性回归）

2.1 Model representation（模型描述）
2.2 Cost function（代价函数）
2.5 Gradient descent（梯度下降）
2.6 Gradient descent intuition（梯度下降总结）
2.7 Gradient descent for linear regression（线性回归的梯度下降）

2.1 Model representation（模型描述）

这门课程中的符号表示
$m$ : Number of training examples（#Training set）
$x^{'} s$ : “input” variable / features
$y^{'} s$ : “output” variable / “target” variable
$(x, y)$ : one training example
$x^{(i)},y^{(i)})$ : The $i$ ’th training example of training set

监督学习算法的工作流程：我们向学习算法提供训练集，学习算法的任务是输出一个函数，通常用 $h$ 表示，称为假设(hypothesis)函数。假设函数的作用是输入 $x$ ，输出预测值 $y$ 。

对于单变量线性回归，假设函数如下表示： $h_\theta(x)=\theta_0+\theta_1x$

若 $x$ 是一个列向量，则 $\theta_1$ 是一个行向量，对应多变量线性回归。

2.2 Cost function（代价函数）

如何选择参数 $\theta_0$ 和 $\theta_1$ ?
Idea：选择 $\theta_0$ 和 $\theta_1$ ，使得对于训练集中的 $(x, y)$ ， $h_\theta(x)$ 与 $y$ 接近。

因此，有了如下最小化问题 $\min_{\theta_0,\theta_1} \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ 令 $J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ ，则上述最小化问题转化为 $\min J(\theta_0,\theta_1)$ ， $J(\theta_0,\theta_1)$ 就是这个线性回归的代价函数。这个代价函数也被称为平方误差(代价)函数。

平方误差函数对于大多数问题，特别是回归问题，都是一个合理的选择。当然也有其它代价函数，只不过在回归问题中常用的是平方误差代价函数。

2.5 Gradient descent（梯度下降）

利用梯度下降法最小化代价函数 $J(\theta_0,\theta_1)$ ，参数更新方向为负梯度方向。它不仅被用在线性回归上，还广泛应用于机器学习的众多领域。本节只是以单变量线性回归为例子来进行说明。
迭代以下步骤直到收敛：
$\theta_j\leftarrow\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$ 正确 (同时更新 $\theta_0,\theta_1$ )： $temp0\leftarrow\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)；temp1\leftarrow\theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)$ $\theta_0\leftarrow temp0；\theta_1\leftarrow temp1$

2.6 Gradient descent intuition（梯度下降总结）

梯度下降算法中的下降步长 $\alpha$ 在机器学习中被称为学习速率(learning rate)。

问题来了： $\alpha$ 取多大呢？固定值，还是自适应？这就和线搜索一样了。

2.7 Gradient descent for linear regression（线性回归的梯度下降）

根据复合函数求导法则，有 $\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)=\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)}); \frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)=\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})*x^{(i)}$ 代入梯度下降算法即可。

梯度下降算法会陷入局部最优，但是对于线性回归就没有这个问题。因为线性回归的代价函数是二次函数，所以是一个凸函数。

对于线性回归问题的最小化代价函数，除了使用梯度下降算法迭代求解，还可以通过最小二乘法(吴的课程中称为正规方程组法)直接求解。梯度下降适用于大规模的数据集。

肥胖边缘疯狂蹦迪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达《机器学习》笔记——第二章《单变量线性回归》

2、Linear regression with one variable（单变量线性回归）2.1 Model representation（模型描述）2.2 Cost function（代价函数）2.5 Gradient descent（梯度下降）2.6 Gradient descent intuition（梯度下降总结）2.7 Gradient descent for linear regression（线性回归的梯度下降）2.1 Model representation（模型描述）这门课程中的符号
复制链接

扫一扫