吴恩达《机器学习》笔记——第四章《多元线性回归》

本文链接：https://blog.csdn.net/qq_43572747/article/details/124677067

4、Linear Regression with multiple variables（多元线性回归）

4.1 Multiple features/variables（多特征/变量）
4.2 Gradient descent for multiple variables（多元梯度下降法）
4.3 Gradient descent in practice I：Feature Scaling（多元梯度下降法演练1：特征缩放）
4.4 Gradient descent in practice II：Learning rate（多元梯度下降法演练2：学习率）.
4.5 Features and polynomial regression（特征和多项式回归）
4.6 Normal equation（正规方程）

4.1 Multiple features/variables（多特征/变量）

记号(Notation)：
$n$ ：number of features/variables（特征/变量数）
$x^{(i)}$ ：input (features) of $i^{th}$ training examples（第 $i$ 个训练样本）
$x_j^{(i)}$ ：value of feature $j$ in $i^{th}$ training examples（第 $i$ 个训练样本的第 $j$ 个特征）

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n$ ，为了便利，定义 $x_0=1$ ， $x=(x_0,x_1,x_2,\dots,x_n)^T$ ， $\theta=(\theta_0,\theta_1,\theta_2,\dots,\theta_n)^T$ ，则 $h_\theta(x)=\theta^Tx$ ，称为多元线性回归(Multivariate linear regression)。

4.2 Gradient descent for multiple variables（多元梯度下降法）

假设函数：* $h_\theta(x)=\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n$

参数： $\theta_0,\theta_1,\theta_2,\dots,\theta_n$

代价函数： $J(\theta)=J(\theta_0,\theta_1,\theta_2,\dots,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

还是和单变量的线性回归一样进行求导，只不过这次是多变量线性回归。不嫌麻烦可以对每个变量进行求导；简单方法是对向量求导。（求导很简单，没啥需要讲的。）

4.3 Gradient descent in practice I：Feature Scaling（多元梯度下降法演练1：特征缩放）

这一节讲的内容的目的是加快梯度下降算法的收敛。

Feature Scaling。Idea：Make sure features are on a similar scale。Get every feature into approximately a $-1\leq x_i\leq1$ 。方法：将特征除以训练集中该特征的最大值。

Mean normalization。Replace $x_i$ with $x_i-\mu_i$ to make features have approximately zero mean (Do not apply to $x_0=1$ )，其中 $\mu_i$ 是训练集中特征 $x_i$ 的平均值，最后再除以 $x_i$ 的范围。用数学表达式就是： $x_i\leftarrow \frac{x_i-\mu_i}{s_i}$ ，其中 $s_i$ 是 $x_i$ 的范围，范围是指最大值减去最小值，也可以把 $s_i$ 设置为 $x_i$ 的标准差。

以上两个缩放不需要太精确，只是为了让梯度下降法的速度更快一点儿。

4.4 Gradient descent in practice II：Learning rate（多元梯度下降法演练2：学习率）.

建议：每次迭代输出代价函数值。

如果梯度下降算法不能正常工作（代价函数值变大或者代价函数值来回横跳），则可以尝试使用更小的学习率 $\alpha$ 。

对于足够小的 $\alpha$ ，代价函数每次迭代都会下降；但是如果 $\alpha$ 太小，收敛会变慢。

4.5 Features and polynomial regression（特征和多项式回归）

这一节只是简单提了一下利用现有特征的运算(加减乘除)构造新的特征和多项式回归，没啥好说的。

4.6 Normal equation（正规方程）

分析地求解线性回归的 $\theta$ ，这一节就是在讲最小二乘法。

Normal equation：method to solve for $\theta$ analytically。

$m$ 个训练样本 $(x^{(1)},y^{(1)}),\dots,(x^{(m)},y^{(m)})$ ； $n$ 个特征。
令 $x^{(i)}=(x_0^{(i)},x_1^{(i)},x_2^{(i)},\dots,x_n^{(i)})\in R^{n+1}$ ，则 $\begin{bmatrix} x^{(1)} \\ x^{(2)} \\ \vdots \\ x^{(m)} \end{bmatrix}$ ， $\begin{bmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)} \end{bmatrix}$ ，利用最小二乘法或者是根据对代价函数求导，得到 $\theta=(X^TX)^{-1}X^Ty$ 。注：利用正规方程，不需要进行特征缩放。

上述涉及到矩阵求逆。当现实任务中 $X^TX$ 往往不是满秩矩阵。例如特征(变量)数远远超过样本数，导致 $X$ 的列数多于行数， $X^TX$ 显然不满秩。此时可以解出多个解，它们均能使代价函数最小化。选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化(regularization)项。