吴恩达学习笔记—— 二、单变量线性回归

最新推荐文章于 2021-02-12 10:05:08 发布

天天152

最新推荐文章于 2021-02-12 10:05:08 发布

阅读量158

点赞数

分类专栏：机器学习 # 吴恩达机器学习

本文链接：https://blog.csdn.net/qq_44082148/article/details/104347358

版权

机器学习同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

吴恩达机器学习

11 篇文章 0 订阅

订阅专栏

二、单变量线性回归

2.1 模型表示

m代表训练集中实例的数量

x代表特征/输入变量

y 代表目标变量/输出变量

(x,y)代表训练集中的实例

$x^{(i)}, y^{(i)})$ 代表第i个观察实例

h 代表学习算法的解决方案或函数也称为假设（hypothesis）

2.2 代价函数

假设函数： $h_\theta(x) = \theta_0 + \theta_1x$

参数： $\theta_0 , \theta_1$

代价函数（cost function）: $J(\theta_0 , \theta_1) = \frac{1}{2m} \sum\limits_{i = 1}^{m}h_\theta(x^{(i)}) - y^{(i)})^2$

目标函数： $J(\theta_0 , \theta_1)$

less function

loss function通常用于衡量单个样本其预测值和实际值的“差距”

既然loss function是用于衡量预测值和实际值之间的"差距"，那么我们其实有很多的衡量手段，比如通过方差，如下： $\varrho(\hat{y}^{(i)}, y^{(i)}) = \varrho(\hat{y}^{(i)} - y^{(i)})^2$

但是，在logistic regression算法中使用方差的方式无法得到凸函数(convex)，也就无法得到全局最小值，所以，我们在logistic regression中使用不同的loss function，如下：

$\varrho(\hat{y}^{(i)}, y^{(i)}) = -[y^{(i)}log\hat{y}^{(i)} + (1-y^{(i)})log(1-log\hat{y}^{(i)})]$

需要注意的是，不论是哪个函数，都是针对单个样本的，所以都带有上标 (i)

cost function

cost function通常是针对样本集中的所有样本，而且是一个平均值。

cost function 是针对整个样本集的，因此它的计算公式需要将所有的loss function的结果进行加总然后求平均值，如下：

$\frac{1}{m}\sum\limits_{i = 1}^{m}[y^{(i)}log\hat{y}^{(i)} + (1-y^{(i)})log(1-log\hat{y}^{(i)})]$

优化目标

得到最小的cost function值

2.3 代价函数的直观理解I

只有一个参数时
在这里插入图片描述
即优化目标为1

2.4 代价函数的直观理解II

是一个两个参数的实例，实际上与一个参数的类似，但是生成的cost function会多出一维（这很容易理解）（即变成三维曲面）
在这里插入图片描述
同样的，我们需要做的事情就是找出三维曲线中最小的值作为优化目标，当然，这个优化目标为二维的

2.5 梯度下降

那么我们如何找出上面说的优化目标呢，用到的就是梯度下降算法

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数的最小值。

梯度下降背后的思想是：开始时我们随机选择一个参数的组合，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。
在这里插入图片描述
想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。（不同的起点可能会导致不同的结果）