【吴恩达系列】machine learning课程week2----多变量线性回归(梯度下降/正规方程)

最新推荐文章于 2021-04-18 20:05:44 发布

菜鸡沈

最新推荐文章于 2021-04-18 20:05:44 发布

阅读量354

点赞数

分类专栏：吴恩达机器学习

本文链接：https://blog.csdn.net/weixin_42481299/article/details/105502476

版权

吴恩达机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Week2

- 多变量线性回归

多变量线性回归

1. 模型表示

$h_\theta (x) = \theta_0 x_0+ \theta_1 x_1 + \dots + \theta_n x_n = \theta^T x$ with $x_0=1$
线性函数：当函数满足以下两个性质，就被称为线性函数
- 齐次性： $f (a x) = a f (x)$
- 可加性： $f (x + y) = f (x) + f (y)$

2. 梯度下降法

直线方程假设：
$h_\theta (x) = \theta_0 x_0+ \theta_1 x_1 + \dots + \theta_n x_n = \theta^T x$
损失函数定义（最小均方误差 Least Mean Square）：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m (\hat y^{(i)}−y^{(i)})^2=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)})−y^{(i)})^2$
其中， $x^{(i)}$ 第i个训练数据的特征向量。
⚠️选择该形式的原因：最大似然估计链接
假设 $y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$ ，且 $\epsilon^{(i)} \sim \mathcal N (0,\sigma^2)$
优化目标：
$\arg min_{\theta} J(\theta)$

2.1 梯度下降更新

在一组(x,y)情况下计算 $\frac{\partial}{\partial \theta_j}J(\theta)$ ：
$\frac{\partial}{\partial \theta_j}J(\theta)=\frac{\partial}{\partial \theta_j}\frac{1}{2}(h_\theta(x)-y)^2=\frac{2}{2}(h_\theta(x)-y)\frac{\partial}{\partial \theta_j}(h_\theta(x)-y)$
$=(h_\theta(x)-y)\frac{\partial}{\partial \theta_j}(\sum^n_i\theta_i x_i-y)=(h_\theta(x)-y)x_j$

批量梯度下降法(batch gradient descent)：在每一个步长内检查所有整个训练集中的所有样本

重复直到收敛：
$\theta_j:=\theta_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta)=\theta_0 - \alpha \frac{1}{m} \sum^m_{i=1}[(h_\theta(x^{(i)})- y^{(i)})x^{(i)}_j]$ (对每个j)

⚠️将 $j$ 迭代完（所有 $\theta$ 向量更新完）才更新 $J(\theta)$ 的值。

随机梯度下降法(stochastic gradient descent)：每次更新 $\theta_j$ 只需要一个样本 $x^{(i)},y^{(i)})$

重复直到收敛：
for $i : = 1 : m$
$\theta_j:=\theta_j−\alpha \frac{\partial}{\partial \theta_j} J(\theta)=\theta_0 − \alpha \frac{1}{m} \sum^m_{i=1} (h_\theta(x^{(i)})−y^{(i)})x^{(i)}_j$ (对每个j)

二者总结

手段	概括	优点	缺点
批量梯度下降法	尽可能减小训练样本的总的预测代价	能够获得最优解，支持并行计算	样本容量较大时，性能显著下降
随机梯度下降法	尽可能的减小每个训练样本的预测代价	训练速度快	并不一定能获得全局最优，经常出现抖动和噪音，且不能通过并行计算优化

2.2 特征缩放(Standardization)

数据归一化方法
$\theta$ 在小范围内会迅速下降，而在大范围内会缓慢下降，因此当变量非常不均匀时，会无效率地振荡到最佳状态。
通过特征缩放，能够使得训练过程更加有效的收敛。
特征缩放：将所有特征的尺度都尽量缩放到-1 到 1 之间。
特征缩放+均值归一化，量化后的特征将服从标准正态分布
$x_i=\frac{x_i-\mu_i}{s_i}$
其中 $\mu$ 是 $x$ 向量元素的平均值， $s_i$ 是最大值-最小值(Min-Max Normalization)或者标准偏差(Z-score standardization)( $s=\sqrt{\frac{1}{m}\sum^m_1 (x_i-\mu)^2}$ )。

拓展： Normalization
量化后的特征将分布在 [0,1]区间。
$x_i=\frac{x_i-min(x)}{max(x)-min(x)}$

2.3 学习率 $\alpha$

$\alpha$ 过小，达到收敛所需的迭代次数会非常高;
$\alpha$ 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛，甚至可能发散，有时候也会出现收敛过慢。
通常可以考虑尝试这些学习率： $\alpha$ = 0.001，0.003， 0.01，0.03，0.1，0.3，1

2.4 判断收敛

绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛
自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值(例如 0.001)进行比较，但通常看上面这样的图表更好。

2.5 特征和多项式回归

通过观察和推测去选取和构造特征
多项式回归模型的一般形式
设最高次方的次数为n，且只有一个特征时: $h(\theta) = \theta_0 + \theta_1 x + \theta_2 x^2 + \dots + \theta_n x^n$ 如果采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。
多项式回归仍是参数 $\theta$ 的线性模型。

3. 正规方程法

直线方程假设
$h_\theta (x) = \begin{pmatrix} x_1^T \\ x_2^T \\ \vdots \\ x_m^T \end{pmatrix}· \begin{pmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{pmatrix} = X · \Theta$ 其中m个样本，每个样本有n个特征， $x_j$ 第j个训练样本。
代价函数定义：
$J(\Theta)=\frac{1}{2m} (X · \Theta−Y)^2 = \frac{1}{2m} (X · \Theta−Y)^T (X · \Theta−Y)$
其中， $x^{(i)}$ 第i个训练数据的特征向量。
优化目标：
$\arg min_{\Theta} J(\Theta) \Rightarrow \frac{\partial}{\partial \Theta} J(\Theta) = 0$

3.1 推导

$J(\Theta)=\frac{1}{2m} (X \Theta−Y)^T (X \Theta−Y)=\frac{1}{2m} (\Theta^T X^T−Y^T) (X \Theta−Y)$
$=\frac{1}{2m}(\Theta^TX^TX\Theta-\Theta^TX^TY-Y^TX\Theta-Y^TY)$
已知 $\frac{dAB}{dB}=A^T$ ， $\frac{dX^TAX}{dX}=2AX$
$\frac{\partial}{\partial \Theta}J(\Theta) = \frac{1}{2m}(2X^TX\Theta-X^TY-(Y^TX)^T-0)$
$=X^TX\Theta - X^TY$
$\frac{\partial}{\partial \Theta}J(\Theta) =0 \ \ \Rightarrow \ \ \Theta = (X^TX)^{-1}X^TY$

$\Theta = (X^TX)^{-1}X^TY$

⚠️另一种与trace有关的推导过程

3.2 可逆性

求解 $X^TX)^{-1}$

不可逆矩阵(奇异或退化矩阵)
一般出现不可逆有两种情况：
- 列向量线性相关，即训练集中存在冗余特征，此时应该剔除掉多余特征；
- 特征过多，此时应该去掉影响较小的特征，或使用正则化；当样本总数 m 小于等于特征数量 n 时， $X^TX)^{-1}$ 一定不可逆。

4. 梯度下降和正规方程对比

梯度下降	正规方程
需要选择适当的学习率 $\alpha$	不要学习率 $\alpha$
需要进行多步迭代	不需要进行迭代，在 Matlab 等平台上，矩阵运算仅需一行代码就可完成
对多特征适应性较好，能在特征数量很多时仍然工作良好	算法复杂度为 O(n3)，所以如果特征维度太高（特别是超过 10000 维），那么不宜再考虑该方法
能应用到一些更加复杂的算法中，如逻辑回归（Logic Regression）	矩阵需要可逆，并且，对于一些更复杂的算法，该方法无法工作

5. 局部加权线性回归

解释
 代码

6. 代码

6.1 Python代码

代码地址待后续补充

代价函数：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)})−y^{(i)})^2$
其中 $h_\theta (x) = \theta_0 x_0+ \theta_1 x_1 + \dots + \theta_n x_n = \theta^T x$

def computeCost(X, y, theta):
	inner = np.power(((X * theta.T) - y), 2) 
	return np.sum(inner) / (2 * len(X))

正规方程
$\Theta = (X^TX)^{-1}X^TY$

import numpy as np def normalEqn(X, y):
theta = np.linalg.inv(X.T@X)@X.T@y  #X.T@X 等价于 X.T.dot(X) 
return theta

6.2 Matlab代码

github地址

7. 参考资料

csdn笔记
 gitbook笔记
 cs229笔记
 课程翻译

菜鸡沈

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达系列】machine learning课程week2----多变量线性回归(梯度下降/正规方程)

Week2：多变量线性回归多变量线性回归
复制链接

扫一扫

专栏目录