2014斯坦福大学吴恩达机器学习课程笔记-2 Linear Regression with One Variable

最新推荐文章于 2024-08-21 20:34:21 发布

Green Lv

最新推荐文章于 2024-08-21 20:34:21 发布

阅读量194

点赞数

分类专栏：机器学习文章标签：机器学习吴恩达

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LvGreat/article/details/103183152

版权

机器学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

文章目录

2 单变量线性回归（Linear Regression with One Variable）

2 单变量线性回归（Linear Regression with One Variable）

2-1 模型表达（Model Representation）

符号定义：

$m$ ：训练样本数
$x$ ：输入变量 / 特征
$y$ ：输出变量 / 目标变量
$(x, y)$ ：一个训练样本
$x^{(i)}, y^{(i)})$ ：第 $i$ 个训练样本
$h$ ：机器学习算法的输出，一个假设函数，输入 $x$ ，输出 $y$ 的估计值
- 形式（单变量线性回归）： $h_θ(x)=θ_0+θ_1x$
  - 简写为： $h (x)$

单变量线性回归，也叫univariate regression

2-2 代价函数（Cost Function）

符号定义：

$θ_i$ ：（模型）参数
- 线性回归：确定参数的值

选取 $θ_0$ ， $θ_1$ ，使得对于训练样本 $(x, y)$ ，有 $h_θ(x)$ 接近 $y$

平方误差代价函数（square error cost function）【垂直距离之和】：
$J(\theta_0,\theta_1)=\frac{1}{2m}\displaystyle\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2$
线性回归目标：
$\min_{\theta_0, \theta_1}J(\theta_0,\theta_1)$

平方误差代价函数是线性回归的常用代价函数

*损失函数≠代价函数

损失函数（Loss Function ）是定义在单个样本上的，算的是一个样本的误差。
代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。
目标函数（Object Function）定义为：最终需要优化的函数。等于经验风险+结构风险（也就是Cost Function + 正则化项）。

来源：【机器学习】代价函数，损失函数，目标函数区别

2-3&2-4 Cost Function intuition I&II

线性回归的代价函数是碗状（bow-shaped）曲面（凸函数，convex function）
为便于分析，使用等高线图（Contour Plots）展示

2-5 梯度下降（Gradient Descent）

用于最小化代价函数J
适用于线性回归和机器学习等问题

outline

初始化 $\theta_0$ ， $\theta_1$ （一般初始值都为0）
一直改变 $\theta_0$ 和 $\theta_1$ 的值，使 $J(\theta_0,\theta_1)$ 变小，直到找到其最小值

梯度下降的特点：初始值的差异可能导致收敛至不同的局部最小值

梯度下降算法：
repeat until convergence {
$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$ (for $j$ = 0 and $j$ = 1)
}
上式中， $\alpha$ 为学习速率（learning rate）

梯度下降的正确计算方法：同时更新（Simultaneous Update）
先计算参数的更新值（即上式赋值符号右边的部分），所有参数的更新值计算完成后，再更新参数【避免先更新参数后计算梯度值导致错误】

2-6 Gradient Descent intuition

学习率低：收敛速度慢
学习率高：可能错过最低点，或导致无法收敛，甚至发散

即使学习率不变，在接近最低点的过程中，随着偏导数的值的不断变小（即曲线越来越平缓），每一步的参数更新的幅度会越来越小

2-7 Gradient Descent for Linear Regression

线性回归的梯度下降参数更新公式：
$\theta_0:=\theta_0-\alpha\frac{1}{m}\displaystyle\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})$
$\theta_1:=\theta_1-\alpha\frac{1}{m}\displaystyle\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})\cdot x^{(i)}$

这里用到的梯度下降是批梯度下降（Batch Gradient Descent）：每步更新需要遍历所有训练集
*其他的梯度下降有些只需要使用训练集的子集

求解代价函数J的最小值时，存在其他不需要梯度下降的解法，如正规方程组（normal equations），但正规方程组在面对更大的数据量时不如梯度下降的扩展性好

2-8 What’s next

两个扩展：

无需迭代（梯度下降）的min J求解方式
更多的特征
- 使用矩阵可以向量可以更方便地表示多维特征及对应的目标变量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
2014斯坦福大学吴恩达机器学习课程笔记-2 Linear Regression with One Variable

2 单变量线性回归2-1 模型表达（Model Representation）定义：mmm：m：训练样本数xxx：输入变量 / 特征yyy：输出变量 / 目标变量(x,y)(x, y)(x,y)：一个训练样本(x(i),y(i))(x^{(i)}, y^{(i)})(x(i),y(i))：第 iii 个训练样本hhh：机器学习算法的输出，一个假设函数，输入 xxx，输出 yyy ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Green Lv 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。