机器学习（Machine Learning）- 吴恩达（Andrew Ng）视频笔记第二章

最新推荐文章于 2024-07-12 15:42:37 发布

Lil_Rachel

最新推荐文章于 2024-07-12 15:42:37 发布

阅读量180

点赞数 1

分类专栏：吴恩达视频整理文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39756719/article/details/86097981

版权

吴恩达视频整理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

第二章

2 - 1 - Model Representation

第一个学习算法是线性回归算法（例如预测房价），另一类常用的监督学习算法是分类问题（例如预测肿瘤是良性还是恶性）。
如下图所示，是一个监督学习算法的工作方式，我们将数据喂给学习算法，进而学习到一个假设，然后通过假设和数据得出预测结果。
在这里插入图片描述

2 - 2 - Cost Function

在这节视频中将定义代价函数的概念，这有助于我们弄清楚如何把最有可能的直线与数据拟合。如下图的线性回归：
在这里插入图片描述
选择的参数决定了得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距就是建模误差（modeling error）
最简单的目标便是选择出可以使得建模误差的平方和最小的模型参数。即使得代价函数 $J(\theta _0,\theta _1)$ 最小。
这里的代价函数也被称作平方误差函数，有时也被称为平方误差代价函数。我们之所以要求出误差的平方和，是因为误差平方代价函数，对于大多数问题，特别是回归问题，都是一个合理的选择。还有其他的代价函数也能很好地发挥作用（例如对数似然）但是平方误差代价函数可能是解决回归问题最常用的手段了。

2 - 3 - Cost Function - Intuition I

误差平方和代价函数定义：
在这里插入图片描述

2 - 4 - Cost Function - Intuition II

代价函数可视化，等高线图，可以看出在三维空间中存在一个使得 $J(\theta _0,\theta _1)$ 最小的点。
在这里插入图片描述
我们真正需要的是一种有效的算法，能够自动地找出这些使代价函数 $J(\theta _0,\theta _1)$ 取最小值的参数 $\theta _0和\theta _1$ 来。

2 - 5 - Gradient Descent

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数 $J(\theta _0,\theta _1)$ 的最小值。
梯度下降背后的思想是：开始时我们随机选择一个参数的组合( $\theta _0,\theta _1,\cdots,\theta _n$ )，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到找到一个局部最小值，因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（除非函数是凸函数），选择不同的初始参数组合，可能会找到不同的局部最小值。在这里插入图片描述
如图所示，我们位于图中的某一点，在梯度下降算法中，我们要做的就是旋转360 度，发现最佳的下山方向，按照自己的判断又迈出一步，重复上面的步骤，又迈进了一小步，并依此类推，直到你接近局部最低点的位置。
批量梯度下降（batch gradient descent）算法的公式为：
在这里插入图片描述
其中?是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

2 - 6 - Gradient Descent Intuition

梯度下降：对 $\theta$ 赋值，使得 $J(\theta)$ 按梯度下降最快方向进行，一直迭代下去，最终得到局部最小值。其中?决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。
如果?太小或?太大会出现什么情况：
如果?太小了，即我的学习速率太小，只能一点点地挪动，慢慢接近最低点，这个过程就需要很多步才能到达最低点。
但如果?太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛，在迭代中一次又一次的错过最小点。
如果我们预先把?1放在一个局部的最低点，局部最优点的导数将等于零，使得?1不再改变，也就是新的?1等于原来的?1。因此，如果你的参数已经处于局部最低点，那么梯度下降法更新其实什么都没做，它不会改变参数的值。
在这里插入图片描述
如图在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的幅度，这是因为当我们接近局部最低点时，很显然在局部最低时导数等于零，所以当我们接近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，这就是梯度下降的做法。所以实际上没有必要再另外减小?。

2 - 7 - Gradient Descent For Linear Regression

梯度下降是很常用的算法，常被用在线性回归上和线性回归模型、平方误差代价函数。
梯度下降算法和线性回归算法比较如图：
在这里插入图片描述 ”批量梯度下降”，指的是在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，在每一个单独的梯度下降中，我们最终都要计算对所有?个训练样本求和。因此，批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本，有时也有其他类型的梯度下降法。

2 - 8 - What_'s Next

本节视频主要是对线性代数进行一个快速的复习回顾。

第三章线性代数基础

略过

Lil_Rachel

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习（Machine Learning）- 吴恩达（Andrew Ng）视频笔记第二章

视频笔记第二章目录2 - 1 - Model Representation2 - 2 - Cost Function2 - 3 - Cost Function - Intuition I2 - 4 - Cost Function - Intuition II2 - 5 - Gradient Descent2 - 6 - Gradient Descent Intuition2 ...
复制链接

扫一扫