Coursera机器学习 Week2 笔记_斯坦福机器学习视频笔记week2-CSDN博客

本文链接：https://blog.csdn.net/u013515273/article/details/77189716

编程作业放到了github上：coursera_machine_learning

1. Linear Regression with Multiple Variables

紧接上一篇的例子 – 房价预测。现在我们有更多的特征来预测房价了，“房间的数量”、“楼层”、“房龄”……

说明一下接下来要用到的符号：

n	特征的数量
m	训练数据的数量
$x^\left(i\right)$	训练集中的第 $i$ 个数据
$x^\left(i\right)_j$	第 $i$ 个数据的第 $j$ 个特征
$y^\left(i\right)$	第 $i$ 个数据的标签（真实输出结果）
$\hat{y^\left(i\right)}$	第 $i$ 个数据的预测结果
$h(x)$	预测模型

训练集（部分）如下图所示：

则模型可以假设成：

h (x (i)) = θ 0 + θ 1 x (i) 1 + θ 2 x (i) 2 + θ 3 x (i) 3 + θ 4 x (i) 4

$h(x^\left(i\right))=\theta_0+\theta_1x^\left(i\right)_1+\theta_2x^\left(i\right)_2+\theta_3x^\left(i\right)_3+\theta_4x^\left(i\right)_4$

写成矩阵的形式，令 $x^\left(i\right)=(1;x^\left(i\right)_1;x^\left(i\right)_2;x^\left(i\right)_3;x^\left(i\right)_4)$ 是一个column vector， $x^\left(i\right) \in \mathbb{R}^{n\times1}$ ；令 $\theta=(\theta_0;\theta_1;\theta_2;\theta_3;\theta_4)$ 也是一个column vector， $\theta \in \mathbb{R}^{n\times 1}$ ，则：

h (x (i)) = θ T x (i)

$h(x^\left(i\right))=\theta^Tx^\left(i\right)$

和之前一样，这个模型中的未知数是 $\theta$ ，只要知道了 $\theta$ 就知道了模型。模型是通过error来学习了，这个问题中的error定义和之前的一模一样，就是求预测结果与实际结果的平方差，然后对整个数据集中的error求和再平均来作为模型对数据的error：

J (θ) = 1 2 m \sum i = 1 m (h (x (i)) - y (i)) 2 = 1 2 m \sum i = 1 m (y (i)^- y (i)) 2

$J(\theta)=\frac{1}{2m}\sum^{m}_{i=1}\left(h(x^\left(i\right))-y^\left(i\right)\right)^2=\frac{1}{2m}\sum^{m}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2$

然后再用上一篇中说的gradient descent方法更新 $\theta$ 即可，过程如下：

2. Gradient descent in practice

2.1 Feature Scaling

让特征们的取值处于同一个范围里面，可以加快梯度下降法的收敛速度。原因在下图中形象说明了。

令 $x_1$ = size (0-2000 $feet^2$ )， $x_1$ = number of bedrooms (1-5)

由于 $x_1$ 的取值范围比 $x_2$ 的大，所以在 $J(\theta)$ 关于 $\theta_1$ 和 $\theta_2$ 的图中， $\theta_2$ 的取值范围应该比 $\theta_1$ 的大：

可以看到，这样的话，从边缘开始向着中心走的路程将特别“曲折”，所以大大降低了收敛的速度。如果将这两个特征scale到同一个范围里面，那么这个椭圆将变成正圆，从边缘向着中心的路程就是半径的距离，变得相当“平坦顺利”，如下图所示：

一般情况下，在做feature scaling的时候，一般都会将特征的取值范围映射到

(−1,1) $(-1,1)$ 的范围上。但是这个范围也不是说一定就必须是

(−1,1) $(-1,1)$ 了，只要相同数量级就行，不要相差太多。举例如下：

0≤x1≤3 $0 \leq x_1 \leq 3$ √

−2≤x2≤0.5 $-2 \leq x_2 \leq 0.5$ √

−100≤x3≤100 $-100 \leq x_3 \leq 100$

× $\times$

−0.0001≤x4≤0.0001 $-0.0001 \leq x_4 \leq 0.0001$

× $\times$

−3≤x4≤3 $-3 \leq x_4 \leq 3$ √

−13≤x4≤13 $-\frac{1}{3} \leq x_4 \leq \frac{1}{3}$ √ 那么，究竟如何将特征进行feature scaling？其中一种方法就是mean normalization。 ** Mean Normalization** 将训练数据中的第

j $j$ 个特征的平均值变为0。公式如下：

x (i) j : = x ( i ) j - a v e r a g e { x j } r a n g e { x j }

$x^\left(i\right)_j:=\frac{x^\left(i\right)_j-average\{x_j\}}{range\{x_j\}}$

举例：

x (1) 1 = 10 ， x (2) 1 = 5

$x^\left(1\right)_1=10， x^\left(2\right)_1=5$

x (1) 1 : = x ( 1 ) 1 - a v e r a g e { x 1 } r a n g e { x 1 } = 10 - 7.5 10 - 5 = 0.5

$x^\left(1\right)_1:=\frac{x^\left(1\right)_1-average\{x_1\}}{range\{x_1\}}=\frac{10-7.5}{10-5}=0.5$

x (2) 1 : = x ( 2 ) 1 - a v e r a g e { x 1 } r a n g e { x 1 } = 5 - 7.5 10 - 5 = - 0.5

$x^\left(2\right)_1:=\frac{x^\left(2\right)_1-average\{x_1\}}{range\{x_1\}}=\frac{5-7.5}{10-5}=-0.5$

现在 $x^\left(1\right)_1$ 和 $x^\left(2\right)_1$ 的平均值是0了。

2.2 Choose Learning Rate $\alpha$

在不断更新 $\theta$ 即迭代次数不断增加之后， $J(\theta)$ 的值应该不断下降，直至不怎么改变了，模型训练完毕，如下图中最后平坦的部分：

如果，

J(θ) $J(\theta)$ 的值不下降，反而上升了，或者，不断震荡，如下图：

那么需要减小学习率

α $\alpha$ ，因为在学习率比较大的时候，容易出现下面的情况：

因为

α $\alpha$ 大的原因，每次都一步跳过了最优解点，导致距离最优解越来越远，

J(θ) $J(\theta)$ 不断上升。如果

J(θ) $J(\theta)$ 在下降，但是下降的速度很慢的话，就需要增大学习率

α $\alpha$ ，因为每一步走的都太短了，导致到达最优解的速度下降，即收敛速度下降。

α $\alpha$ 是根据经验选择的，通过实验选择在当前task下最优的学习率。一般情况下，选择

0.001,0.01,0.1,1 $0.001,0.01,0.1,1$ 等：

3. Features and Polynomial Regression

除了训练集中已经给出的特征，还可以根据这些特征来生成新的特征。比如说最简单的，已有特征“长”和“宽”，可以使用生成的特征“面积”来进行模型的学习。

另外 $h(x)$ 也可以使用polynomial regression来代替linear regression，则：

h (x) = θ 0 + θ 1 x 1 + θ 2 x 22 + θ 3 x 33 + θ 4 x 44

$h(x)=\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_3^3+\theta_4x_4^4$

然后可以通过对特征的处理，将polynomial regression转换成linear regression：

只要令：

x 1 : = x 1

$x_1:=x_1$

x 2 : = x 22

$x_2:=x_2^2$

x 3 : = x 33

$x_3:=x_3^3$

x 4 : = x 44

$x_4:=x_4^4$

然后继续使用： $h(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$ 即可。

所以其实还是在对特征进行处理，至于选取哪一种regession的方式，可以根据数据的走向来决定：

4. Matrix Representation

在实际计算过程中，用矩阵来计算会提升计算速度。下面就来看看怎么转换成矩阵形式。

如下例子：

X $X$ 矩阵中的每一行代表一条数据，每一列代表一种特征，第一列除外，第一列相当于“截距”，在machine learning中，成为“偏置bias”，而

θ $\theta$ 被称为“权值weights”。

5. Normal Equation

在Linear Regression中，Normal equation可以用来取代Gradient descent来计算 $\theta$ 。

由于最完美的拟合就是让 $\frac{\partial}{\partial \theta}J(\theta)=0$ ，于是在理想条件下可以通过转置和求逆就把 $\theta$ 求出来了， $\theta=(X^TX)^{-1}X^Ty$ 。

在Octave中有函数可以直接求解：

pinv(X'*X)*X'*y

但并不是所有的数据都可以这样的，毕竟“逆”不是所有矩阵都有的……

当 $X^TX$ 不可逆时，主要有以下两种情况造成：

有冗余的特征
比如说 $x_1$ = size of $feet^2$ ， $x_2$ = size of $m^2$
因为 $1m=3.28feet$ ，所以实际上 $x_1$ 和 $x_2$ 是同一个特征在不同范围上而已。即：
$x_1=\left(3.28\right)^2x_2$
特征太多（e.g. $m \leq n$ ）
策略：删除部分特征，或者使用规范项regularization（下一节讲到）