Coursera机器学习 Week1 笔记

最新推荐文章于 2018-12-23 13:24:38 发布

LVB10101111

最新推荐文章于 2018-12-23 13:24:38 发布

阅读量1.7k

点赞数 4

分类专栏：机器学习Coursera By Andrew Ng 文章标签：机器学习

本文链接：https://blog.csdn.net/u013515273/article/details/77164502

版权

机器学习Coursera By Andrew Ng 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

昨天刚刚放假。准备这个暑假，把这个课程重新看一遍，预计10天时间。

编程作业放到了github上：coursera_machine_learning

1. Introduction

1.1 Supervised Learning

已知输入 $x$ 以及其对应的标签 $y$ ，求解 $f: x \rightarrow y$

回归 regression：输出的结果 $y$ 是一个连续的变量 $y= \mathbb{R}$
分类 classification：输出的结果 $y$ 是一个离散的变量 $y = \{1,2,3...,k\}$

1.2 Unsupervised Learning

已知输入 $x$ ，并不知道其所属的类别标签 $y$ ，求解将 $x$ 们划分到不同的聚类中，这些聚类具体是什么类别并不知道。

分类 classification：分类到各不知名的聚类中

1.3 Semi-supervised Learning

输入的 $x$ 中，一部分有对应的标签 $y$ ，大部分没有。通过这一部分有标签的去推测各不知名的聚类是什么类别。

1.4 一张图弄懂

learning type
(图片来源：台湾大学林轩田的《机器学习基石》3-2)

2. Linear Regression with One Variable

2.1 Model Representation

例子：房价预测 - 给出房子的各种特征，如面积、位置等，以及该房子对应的价格。学习一个模型，当输出其他房子的特征时，能够预测出新房子的价格。
明显这是一个回归模型。

数据说明：

( $x^\left(i\right)$ , $y^\left(i\right)$ ) 训练集中的第 $i$ 条数据
$x$ 输入数据 $y$	输出数据，数据 $x$ 的标签（真实输出结果） $x^\left(i\right)_j$ 第 $i$ 条数据的第 $j$ 个特征 $m$	训练集中数据的个数
$h(x)$ 学习得到的模型 $\hat{y}$ 模型对输入数据 $x$ 的预测结果

对于其中的一条数据 $(x^\left(i\right)$ , $y^\left(i\right))$ 来说，假设只有面积 $x^\left(i\right)_1$ 一个特征，则回归模型可以假设成:

$h (x (i)) = θ 0 + θ 1 x (i) 1$ $h(x^\left( i \right))=\theta_0 + \theta_1x^\left(i\right)_1$

即这个模型对输入数据 $x^\left( i \right)$ 的预测结果 $\hat{y^\left(i\right)}$ 为 $\theta_0 + \theta_1x^\left(i\right)_1$ 。

由于一开始我们并不知道 $\theta$ 是多少，而这个就是模型需要通过数据学习得到的，和人学习一样，模型需要知道自己究竟哪里错了才能够进一步学习。于是提出模型的错误公式，loss/cost function来定义这个错误。

2.2 Cost Function

最简单的错误评估，就是将预测出来的结果同真实的结果做一个平方差：

$J i (θ) = (y (i)^- y (i)) 2 = (h (x (i))) 2$ $J_i(\theta)=\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2=\left(h\left(x^\left( i \right)\right)\right)^2$

因为有 $m$ 条数据，所以将这些个平方差求和之后再平均一下，作为整个训练集的error：

$J (θ) = 1 m \sum i = 1 m (y (i)^- y (i)) 2$ $J(\theta)=\frac{1}{m}\sum^{m}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$

再者，为了接下来模型根据这个error进行学习的以后更加方便，再除以2（因为平方项在求导的时候可以与这个分母2抵消）：

$J (θ) = 1 2 m \sum i = 1 m (y (i)^- y (i)) 2$ $J(\theta)=\frac{1}{2m}\sum^{m}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$

而最终的目的就是让这个error最小，只要error最小了，那就说明这个 $h(x)$ 预测出来的结果和真实的结果相差不大了，那我们的模型就训练完毕了。

学习目标：

$θ 0, θ 1 = m i n i m i z e θ 0, θ 1 1 2 m \sum i = 1 m (y (i)^- y (i)) 2$ $\theta_0, \theta_1=minimize_{\theta_0, \theta_1}\frac{1}{2m}\sum^{m}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$

2.3 Cost Function - intuition

接下来通过几个例子来了解一下cost function是怎么工作的， $\theta$ 又该怎么取值。

下面的图中，红色叉叉表示训练数据，黑色直线代表 $h(x)$ 。

首先为了方便起见，假设只有一个 $\theta_1$ ，即 $h(x^\left(i\right))=\theta_1x^\left(i\right)_1$ 。(图中为书写方便，将 $x^\left(i\right)_1$ 直接写作 $x$ 了)

当 $\theta_1=1$ 的时候，计算得到 $J(\theta_1)=0$

当 $\theta_1=0.5$ 的时候，计算得到 $J(\theta_1)=0.58$

当 $\theta_1=0$ 的时候，计算得到 $J(\theta_1)\approx2.3$

4. 以此类推，再画出一些点，然后连接起来

从上图中看到， $J(\theta)$ 最小的点，就是 $\theta_1=1$ 的点，所以，模型训练的结果就是 $\theta_1=1$ ， $h(x^\left(i\right))=1\times x^\left(i\right)_1$ 。

接下来，再进一步看 $\theta_0$ 和 $\theta_1$ 共存的情况，类比上面，做出来的三维图如下：

cost function取最小值的时候就是凹陷处，数学意义上梯度为0的地方。

2.4 Gradient Descent

使用gradient descent来minimize $J(\theta)$ 。

一开始随便选择 $\theta_0$ 和 $\theta_1$ ，然后慢慢更新直至 $J(\theta)$ 到达最小值。

更新过程可视化如下，从上面的点一直沿着一定的方向下降到下面的点：

这里的方向就是高数中的“最快梯度下降法”中采取的“负梯度方向”即 $-\frac{\partial}{\partial \theta_j}J(\theta)$ ，在这个方向所走的步长就是 $\alpha$ ，所以 $\theta_j$ 的更新过程如下：

$θ j : = θ j - α \partial \partial θ j J (θ)$ $\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta)$

特别注意更新过程中 $\theta$ 的更新得是同步的，即更新 $\theta_0$ 和 $\theta_1$ 的 $J(\theta)$ 得是同一个，详细过程如下图：

下面来看看这个步长 $\alpha$ 的取值问题：

如果 $\alpha$ 取值太小，那么下降到最小值的速度会比较慢
如果 $\alpha$ 取值太大，可能一步就跳过了最小值点……

另外，如果这个 $J(\theta)$ 不止一个最小值点，那么当落入局部最小值(local minimun)，就跳不出来了，因为梯度已经变成了0，不再更新 $\theta$ 了。

当不断靠近最小值的过程中，每次更新的速度也会下降，因为梯度越来越小了，如下图所示：

最后把gradient descent应用到linear regression with one variable问题上：

梯度求导如下；

对于有一些 $J(\theta)$ ，可能具有多个“局部最优解”，如下图：

但是对于Linear Regression来说， $J(\theta)$ 是“碗形”的，术语称为“convex function”，如下图：

Batch Gradient Descent
使用训练集中所有数据的error的平均值作为一次更新，即：

$J (θ) = 1 2 m \sum i = 1 m (y (i)^- y (i)) 2$ $J(\theta)=\frac{1}{2m}\sum^{m}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$

Stochastic Gradient Descent
使用训练集中的一个数据的error就更新一次，即：

$J (θ) = (y (i)^- y (i)) 2$ $J(\theta)=\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$

Mini-Batch Gradient Descent
使用训练集中部分数据的error的平均值作为一次更新，即：

$J (θ) = 1 2 k \sum i = 1 k (y (i)^- y (i)) 2$ $J(\theta)=\frac{1}{2k}\sum^{k}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$