机器学习笔记week1(Andrew NG)

最新推荐文章于 2021-07-24 10:17:32 发布

置顶 ice_martin

最新推荐文章于 2021-07-24 10:17:32 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/ice_martin/article/details/60972131

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

机器学习笔记week1(Andrew NG)

martin

机器学习笔记week1Andrew NG
- Linear Regression with one Variable单变量线性回归

Linear Regression with one Variable(单变量线性回归)

Model and Cost Function(模型和损失函数)

给出一个房价预测的例子，x轴是房子的大小，y轴是房子的价格，图中标注了一些房子作为数据集，而这些点被称为标注数据(labeled data)，利用这样的数据来预测的方法称为：监督学习。监督学习分为两类：分类与回归，此时，作为预测房价的这个例子是监督学习中的回归例子。

2.png-181.8kB

$m$ 代表是数据集的个数， $x's$ 是输入变量或者特征， $y's$ 是输出变量或者目标变量。

2.png-116.1kB

选择题1
1.png-27.5kB

整个预测的过程可以归结为如下图:

1.png-13.9kB

通过训练数据，将数据输入到算法里面，我们能得到一个关于这个模型的一个假设 $h$ ，然后利用这个假设 $h$ 我们将其他输入变量输入到该假设中就会得到我们想要的预测结果 $y$ 。那么对于单变量的线性回归我们用如下公式来表示：

h θ (x) = θ 0 + θ 1 x

$h_θ(x) = θ_0 + θ_1x$

线性模型其意思是模型是呈现线性变化的，为什么对于该房价的例子我们要采用单变量的，其原因是该模型的未知参数仅有一个 $x$ 来决定。

对于假设函数其包含两个参数， $θ_0$ 和 $θ_1$ ，那么如何来确定这两个参数来使得得出的假设函数直线更好的拟合数据集或者换句话说如何才能判断假设函数所产生的误差最小？
1.png-63.2kB
所以，给出如下定义：

m i n i m i z e 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$minimize{1\over2m}\sum^{m}_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$

h θ (x (i)) = θ 0 + θ 1 x (i)

$h_\theta(x^{(i)}) = \theta_0 + \theta_1x^{(i)}$
第一个公式是最小化预测值与真实值差的平方的值，也叫作均方误差值，是衡量误差的一种方式。第二个公式是我们的假设函数。有时我们更喜欢写成如下形式：

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1) = {1\over2m}\sum^{m}_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$

m i n i m i z e J (θ 0, θ 1)

$minimizeJ(\theta_0,\theta_1)$

其中的 $J(\theta_0,\theta_1)$ 叫做代价函数(cost function),我们的目的就是最小化代价函数，使得假设函数更加接近真实数据集。为了能更好的解释代价函数我们举个例子并画出能说明其含义的图来：

2.png-136.6kB
2.png-193.8kB

左边的图在坐标系中分别画了三个的点 $(1,1)$ ， $(2,2)$ ， $(3,3)$ ，假设这就是我们的数据集，那么现在我们就要对这个数据集进行假设函数的猜测，当然，学过数学的人一眼就能看出在 $\theta_0=0$ ， $\theta_1=1$ 时，也就是假设函数 $h_\theta(x) = x$ 时是最吻合数据集的，但是假如该数据集不会这样简单，不能一眼看出它的拟合线来该怎么办呢？注意到，当假设函数越能拟合数据集时，它的代价函数就越接近 $0$ ，所以这就是采用代价函数来选择参数 $\theta_0$ ， $\theta_1$ 从而产生出更好的假设函数来拟合数据集的原因。

选择题2
1.png-45.5kB

刚刚上面的例子图片采用的二维的图像，因为图片中只包含了两个参数， $\theta_1$ 和 $J(\theta_1)$ ，如果是三个参数的图片则会映射到三维的图像上面上：

1.png-210.9kB

在这个三维图片中，图中的图片上的点距离“水平地面”的高度就是它的代价值 $J(\theta_0,\theta_1)$ ，或许我们还可以用另外一种图片来表示这个三维图：剖面图或者轮廓图。

1.png-85.4kB
1.png-82.4kB
1.png-79kB

从上到下，左边依次是不同的假设函数直线，右边依次是不同的轮廓图，这三个假设直线一个比一个更接近数据集，所以对应的轮廓图中的代价函数的点会更接近中心区域。所以运用此种图片可以更加直观的来判别假设函数的好坏。

Gradient Desent(梯度下降)

1.png-239.7kB

就像图片中画出的那样，梯度下降就是以最合适的方向来进行递减。假如自己站在一个山峰的某以高度，现在想以最快的速度去山底，所以就会问自己以我现在所在的位置我的四周360度的方向上哪一个方向上可以令我下降最快，然后不断进行迭代和执行，这样终会在某一时刻会到达山底。

3.png-239.8kB

但是又如上图所示，不可避免的当我所站的位置不一样，会下降到不同的山底，而这样的山底其实只是在我当前的视野中的山底并不是真正的山底，所以，此种方法会受限于 $\color{red}{初始位置}$ 的选择。换句话说就是会陷入 $\color{red}{局部最优}$

下面让我们来公式化梯度下降算法：
4.png-47.4kB
其中 $\alpha$ 叫做学习率(learning rate)， ${\partial\over\partial\theta_j}$ 叫做梯度， $\color{red}{两者相乘叫做步长}$ 。

选择题3
2.png-26.3kB

那么公式化完了梯度下降的公式，让我们再来看看这个公式所包含的意义和原理：
1.png-158.3kB
上图中有两个小坐标图，先来看第一个小坐标图，注意到在图的右边有个红点，此时在它当前的位置上的导数是个 $\color{red}{正数}$ ，所以对于 $\theta_1 := \theta_1 - \alpha{\partial\over\partial\theta_1}$ 中的 $\alpha{\partial\over\partial}$ 即为 $\partial$ 倍的某一个正数，所以对于更新后的 $\theta_1$ 相当于 $\color{red}{减小}$ 了，所以更新后的 $\theta_1$ 会逐渐靠近图中的谷底。
而第二个小坐标图，注意到在图的左边有个红点，此时在它当前的位置上的导数是个 $\color{red}{负数}$ ，所以对于 $\theta_1 := \theta_1 - \alpha{\partial\over\partial\theta_1}$ 中的 $\alpha{\partial\over\partial}$ 即为 $\partial$ 倍的某一个负数，所以对于更新后的 $\theta_1$ 相当于 $\color{red}{增加}$ 了，所以更新后的 $\theta_1$ 也会逐渐靠近图中的谷底。以上就是梯度下降算法的自更新原理。