Andrew Ng机器学习(ML)入门学习笔记（二）

最新推荐文章于 2024-03-08 00:32:33 发布

SCUT_Arucee

最新推荐文章于 2024-03-08 00:32:33 发布

阅读量1.6k

点赞数

分类专栏：模式识别机器学习文章标签：机器学习多变量线性回归多项式回归正规方程

本文链接：https://blog.csdn.net/SCUT_Arucee/article/details/49448111

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

模式识别

9 篇文章 1 订阅

订阅专栏

一.多变量线性回归(Multivariate linear regression)

前面讨论的房屋价格问题我们认为房屋价格只与其大小有关，故定义了 $h_\theta(x)=\theta_0+\theta_1x$ 这样的假设函数。

若房屋的价格 $y$ 受到其大小 $x_1$ ，卧室数量 $x_2$ ，楼层 $x_3$ ，房屋年龄 $x_4$ 多个因素共同影响，则称为多特征或多变量问题。

符号说明：

$n →特征变量的数目$ ，如这里 $n=4$

$x^{(i)}$ → 第 $i$ 组训练数据的所有特征

$x_j^{(i)}$ → 第 $i$ 组训练数据的特征 $j$ 的值

此时假设函数 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$ ，我们可以令 $x_0=1，即x_0^{(i)}=1$ ，

并把特征变量的数目扩展到 $n$ ，得到多变量线性回归一般的假设函数

h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + \cdot \cdot \cdot + θ n x n

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+···+\theta_nx_n$
定义两个

n+1维向量 $n+1维向量$ ,

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$x=\begin{bmatrix}x_0\\x_1\\x_2\\\vdots\\x_n\end{bmatrix}\in\mathbb{R}^{n+1}$

θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$\theta=\begin{bmatrix}\theta_0\\\theta_1\\\theta_2\\\vdots\\\theta_n\end{bmatrix}\in\mathbb{R}^{n+1}$
则

hθ(x)=θTx $h_\theta(x)=\theta^Tx$ 。

代价函数 $J(\theta_0,\theta_1,\cdots,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ ,用上述 $n+1$ 维向量形式表示 $\theta$ ，则

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
也可以写成

J (θ) = 1 2 m \sum i = 1 m ((\sum j = 0 n θ j x (i) j) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m((\sum_{j=0}^n\theta_jx_j^{(i)})-y^{(i)})^2$

二.多变量回归的梯度下降

根据代价函数 $J(\theta)$ ，可以得到多变量线性回归的数学表达

重复直到收敛{

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ }，为

j=0,1,⋯,n $j=0,1,\cdots,n$ 同时更新。

将 $J(\theta)$ 的表达式代入，可以得到

θ j : = θ j - α 1 m \sum i = 1 m ((h θ (x (i)) - y (i)) x (i) j)

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)})$
这里之所以会多乘一项

x(i)j $x_j^{(i)}$ ，是因为

hθ(x(i))=θ0x(i)0+θ1x(i)1+⋯+θnx(i)n $h_\theta(x^{(i)})=\theta_0x_0^{(i)}+\theta_1x_1^{(i)}+\cdots+\theta_nx_n^{(i)}$ 对

θj $\theta_j$ 求偏导时会得到

θj $\theta_j$ 项前面的系数

x(i)j $x_j^{(i)}$ 。

三.特征缩放(Feature Scaling)

多变量线性回归可能会遇到的一个问题是，如果特征变量 $x_1$ （房屋大小）的取值范围是 $0\sim2000$ ，特征变量 $x_2$ 的取值范围是 $1\sim5$ （卧室数目），则画等值线图时会发现因为 $x_1，x_2$ 取值差别很大，导致 $\theta_1$ 变化很小，等值线图变成又高又瘦的椭圆，如下图

这里写图片描述

这会导致梯度下降收敛到中心最优点的速度很缓慢。为了解决这个问题，需要进行特征缩放，即将特征变量值除以其可以取到的最大值：

x 1 = 房 屋 面 积 2000

$x_1=\frac{房屋面积}{2000}$

x 2 = 卧 室 数 目 5

$x_2=\frac{卧室数目}{5}$
这样可确保让不同特征变量的取值在相近的范围内（具有可比性），等值线图变得更圆，梯度下降算法收敛更快。

进行特征缩放时，通常让每一个特征取值大概在 $-1\leqslant x_i\leqslant1$ 的范围，因为 $x_0$ 总是等于1，它也满足这个范围。但这里的范围界限 $-1和1$ 也不是绝对的，只要范围和此范围接近就行。

四.均值归一化(Mean Normalization)

除了特征缩放外，有时候也可以进行均值归一化，即以

x i \leftarrow x i - u i s i

$x_i\gets\frac{x_i-u_i}{s_i}$ 这种形式让特征值有近似于0的均值。

其中， $u_i$ 是训练数据集中 $x_i$ 的平均值， $s_i$ 是 $x_i$ 的取值范围（用 $x_i$ 的最大值减最小值）。注意这里对 $x_0$ 不适用，因为 $x_0=1$ 。

例如： $x_1=\frac{房屋面积-1000}{2000}$ ，此时 $x_1$ 就落在 $-0.5\leqslant x_1\leqslant0.5$ 这个范围。

均值归一化的目的与特征缩放一样，也是为了让梯度下降算法收敛速度更快。

五.梯度下降的两个问题

对于梯度下降 $\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ ，提出两个问题

①如何确定梯度下降是正常工作的

②如何选择学习率 $\alpha$

对于梯度下降，我们的目标是 $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J(\theta)$ 。正常情况下，每一次迭代后，代价函数 $J(\theta)$ 都减小了。我们可以画出 $J(\theta)$ 随迭代次数增加而变化的曲线图。如下图，若 $J(\theta)$ 在一定的迭代次数后趋于平坦了，则认为梯度下降收敛了。

这里写图片描述

需要注意的是，对于不同的问题，梯度下降收敛所需的迭代次数也不同。

除了可以根据如上所述的 $J(\theta)$ 随迭代次数变化曲线判断是否收敛外，还可以进行自动收敛测试，即给定一个合适的较小值 $\varepsilon$ ，如果在一次迭代后 $J(\theta)$ 减小到小于 $\varepsilon$ ，则认为梯度下降收敛了。

但这里的 $\varepsilon$ 怎样才能取得合适并不好定一个规则，故通过判断曲线图是否平坦可能更好。

除此之外，曲线图还可以给出梯度下降没有正常工作的警告。

如下图，随着迭代次数增加， $J(\theta)$ 却不断增大，这是因为学习率 $\alpha$ 太大，每次迭代后 $J(\theta)$ 都冲过了最小值，反而变得更大，这提示我们要用更小的 $\alpha$ 。

这里写图片描述

若 $J(\theta)$ 曲线图反复地下降后又上升，如下图，这也是因为学习率 $\alpha$ 较大，导致 $J(\theta)$ 可能不会每次迭代都减小，也提示要用更小的 $\alpha$ 。

这里写图片描述

总之，若 $\alpha$ 太小，则收敛太慢；若 $\alpha$ 太大，则 $J(\theta)$ 可能不会每次迭代都减小，可能无法收敛。

实际上应该尝试一系列的 $\alpha$ 值，作出 $J(\theta)$ 随迭代次数变化的曲线，找到一个可以使梯度下降较快收敛的学习率 $\alpha$ 的值。

六.特征选择和多项式回归

仍然以房价问题为例，假设房价受街道临宽(frontage)和纵向深度(depth)共同影响，则假设函数

h θ (x) = θ 0 + θ 1 * f r o n t a g e + θ 2 * d e p t h

$h_\theta(x)=\theta_0+\theta_1*frontage+\theta_2*depth$ 但实际上用房屋宽度和深度的乘积，也就是房屋大小作为特征可能更合适。我们可以创造特征变量

x=frontage∗depth $x=frontage*depth$ ，这样

hθ(x)=θ0+θ1x $h_\theta(x)=\theta_0+\theta_1x$ ，有时候通过一个新的特征，会得到一个更好的模型。

此时房价只与房屋大小(size)有关。假设有如下图所示的训练数据，为了取得较好的拟合效果，可能会想到用图中蓝线所示的二次函数去拟合，但此二次函数上升到顶点后会下降，与房价的实际情况出入较大。所以用图中绿线所示的三次函数去拟合数据可能更合适。

这里写图片描述

这时

h θ (x) = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3

$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$ 称为多项式回归(Polynomial Regression)。

而对于多变量线性回归

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3$

可以通过设置特征变量

x 1 = (s i z e)

$x_1=(size)$

x 2 = (s i z e) 2

$x_2=(size)^2$

x 3 = (s i z e) 3

$x_3=(size)^3$ 将多项式回归和多变量线性回归联系起来。

需要注意的是，若房屋大小这个特征变量的取值范围是 $1\sim1000$ ，则新设置的特征变量的范围如下：

x 1 : 1 \sim 1000

$x_1:1\sim1000$

x 2 : 1 \sim 106

$x_2:1\sim10^6$

x 3 : 1 \sim 109

$x_3:1\sim10^9$ 这时候前面所提到的特征缩放和均值归一化就非常重要了，必须要让所有特征变量的取值范围变得有可比性。

除了多项式回归之外，还有其他设计特征的选择，如：

h θ (x) = θ 0 + θ 1 x + θ 2 x \sqrt

$h_\theta(x)=\theta_0+\theta_1x+\theta_2\sqrt{x}$ 只要能够通过设计不同的特征，取得更好的拟合效果就行。

七.正规方程(Normal Equation)

正规方程提供了一种可以一次性求解最优 $\theta$ 值的解析方法。

①对于单变量（特征）线性回归， $\theta\in\mathbb{R}$ ，为了求解 $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J(\theta)$ ，需要

令 d d θ J (θ) = 0 ， 解 出 θ 的 值

$令\frac{\rm d}{\rm d\theta}J(\theta)=0，解出\theta的值$

②对于多变量（特征）情况， $\theta\in\mathbb{R}^{n+1}$ ， $\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ ，为了求解 $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}$ ，需要

对 每 一 个 j ， 令 \partial \partial θ j J (θ) = 0 ， 解 出 θ 0, θ 1, \dots, θ n 的 值

$对每一个j，令\frac{\partial}{\partial\theta_j}J(\theta)=0，解出\theta_0,\theta_1,\cdots,\theta_n的值$
然而，这种偏导计算可能很复杂。

若给定了 $m$ 组训练数据 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$ 以及特征变量的数目 $n$ ，则每组训练数据的输入实际上都是一个 $n+1$ 维向量（包含了始终为1的 $x_0$ ）

x (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (i) 0 x (i) 1 x (i) 2 ⋮ x (i) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$x^{(i)}=\begin{bmatrix}x_0^{(i)}\\x_1^{(i)}\\x_2^{(i)}\\\vdots\\x_n^{(i)}\end{bmatrix}\in\mathbb{R}^{n+1}$ 定义一个

m∗(n+1) $m*(n+1)$ 维的设计矩阵

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T ⋮ (x (m)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \in R m * (n + 1)

$X=\begin{bmatrix}(x^{(1)})^T\\(x^{(2)})^T\\\vdots\\(x^{(m)})^T\end{bmatrix}\in\mathbb{R}^{m*(n+1)}$

m $m$ 组训练数据的输出构成一个

m $m$ 维向量

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \in R m

$y=\begin{bmatrix}y^{(1)}\\y^{(2)}\\\vdots\\y^{(n)}\end{bmatrix}\in\mathbb{R}^{m}$ 正规方程法给出的求解

minθJ(θ) $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J(\theta)$ 的公式是

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$ 另外，使用正规方程法时不需要归一化特征变量。

对比梯度下降法和正规方程法求解 $\theta$ ，梯度下降法的劣势是需要选择学习率 $\alpha$ ，需要多次迭代，而正规方程法不需要。但这不意味着正规方程法就优于梯度下降，正规方程法需要计算 $(X^TX)^{-1}$ ，当特征变量的数目 $n$ 很大时， $X^TX$ 是 $(n+1)*(n+1)$ 维矩阵，对该矩阵求逆计算量巨大，复杂度大致是 $O(n^3)$ ，此时用梯度下降发反而更合适。

通常， $n$ 在10000以上时，多考虑用梯度下降法。

当然这里又有两个问题：

①如果 $X^TX$ 不可逆怎么办？

首先，这种情况并不多见；其次，Andrew Ng教授强调了Octave里的pinv()伪逆函数依旧可以求解。

②为什么 $X^TX$ 会不可逆？

<1>存在多余的特征，即有特征变量之间是线性相关的。
如： $x_1$ 是以 $英尺^2$ 为单位的房屋大小， $x_2$ 是以 $米^2$ 为单位的房屋大小，实际上二者是线性相关的，即 $x_1=3.28x_2$ 。

针对这种情况，可删除一些特征变量直至特征变量之间没有互相线性相关的特征存在。

<2>特征变量太多( $m\leqslant n$ )

针对这种情况，可删除一些特征变量或使用正则化的方法使得即使只有很小的训练集( $m$ 很小)，也能找到适合很多特征的 $\theta$ 值。

SCUT_Arucee

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Andrew Ng机器学习(ML)入门学习笔记（二）

一.多变量线性回归(Multivariate linear regression)前面讨论的房屋价格问题我们认为房屋价格只与其大小有关，故定义了hθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x这样的假设函数。若房屋的价格yy受到其大小x1x_1，卧室数量x2x_2，楼层x3x_3，房屋年龄x4x_4多个因素共同影响，则称为多特征或多变量问题。符号说明：n→特征变量
复制链接

扫一扫

专栏目录