[机器学习算法推导与总结] 线性回归最小二乘法的两种求解方法对比

最新推荐文章于 2024-08-04 19:51:15 发布

dawnohdawn

最新推荐文章于 2024-08-04 19:51:15 发布

阅读量4.7k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013820053/article/details/81358651

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

normal equation（解析法）

求解目标函数如下，其中 $X$ 为所有样本的所有特征，是一个M（M个样本）行N（N个特征）列的矩阵， $Y$ 是M个样本的真实值，是M行的列向量， $\omega$ 是回归系数，是N行的列向量：
$J(\omega)= ||Y-X\omega||^2$
　　用解析法求解 $\omega$ ，要对 $J(\omega)$ 求导，令导数为零：
$\frac{d J(\omega)}{d\omega}=2(Y-X\omega )\cdot (-X^T)=0$
　　因此解得:
$\begin{aligned} & X^T Y = X^TX\omega \\ & \omega =(X^TX)^{-1}X^T Y \end{aligned}$
　　这就是normal equation。

梯度下降法

梯度下降的目标函数形式写法有所不同，不采用normal equation完全矩阵的写法，而是用求和的写法。其中 $x^{(i)}$ 为第i个样本的特征列向量， $\omega$ 为回归系数列向量， $y^{(i)}$ 为第i个样本的真实值：
$J(\omega)=\frac{1}{2} \sum_{i=1}^{M}( y^{(i)}-\omega^T x^{(i)})^2$
　　梯度下降法就是要求目标函数的梯度，对 $\omega$ 的第j维求导：
$\frac{d J(\omega) } {d\omega_j }=\sum_{i=1}^{M}( y^{(i)}-\omega^T x^{(i)})\cdot x^{(i)}_j$
　　然后更新 $\omega$ 的第j维：
$\omega_j \rightarrow \omega_j - \alpha \frac{d J(\omega) } {d\omega_j }$
　　每次迭代都要更新 $\omega$ 的所有维。
　　不过每次迭代不一定要使用全部样本，可以使用随机梯度下降法，每次只随机选择一个样本。

两种方法的对比

normal equation	梯度下降法
要求 $X^TX)$ 必须可逆	不要求 $X^TX)$ 可逆
求 $X^TX)$ 的逆费时较多，当特征较多时运算很慢	特征较多时运算不会特别慢
不需要feature scaling	需要feature scaling
只需一次计算就能求解	需要多次迭代
不需要选择学习步长	需要选择学习步长
对于更复杂的问题可能求不出解	可用于更复杂的问题，可移植性强

如何选择方法

吴恩达建议，N>10000时，使用梯度下降法，N<10000时，使用normal equation。

补充：向量求导

对于向量 $X\omega$ 的求导：
$\frac{d X\omega}{d\omega}=X^T$
　　由于 $\omega$ 是一个列向量，对 $\omega$ 求导的结果一定是一个列向量，或是多个列向量组成的矩阵，每个列向量都是一个样本的特征值列向量。而 $X$ 是由多个特征行向量组成的矩阵，因此求导的结果应该是 $X^T$ 。
　　
　　对于 $||Y-X\omega||^2$ 的求导，其中一种参考 zhaosarsa：
$\begin{aligned} &\frac{d ||Y-X\omega||^2 }{d \omega } \\ =&\frac{(Y-X\omega)^T (Y-X\omega)}{d\omega} \\ =&\frac{(Y^T-{\omega}^T X^T) (Y-X\omega)}{d\omega} \\ =&\frac{(Y^TY-Y^TX\omega-{\omega}^TX^TY+{\omega}^TX^TX\omega) }{d\omega} \\ =& - X^T Y- X^TY + 2X^TX\omega\\ =&-2X^T Y + 2X^TX\omega \end{aligned}$

第二种求导的方法使用了链式求导，参考OO猪侠，结果与上述方法一样：
$\begin{aligned} &\frac{d ||Y-X\omega||^2 }{d \omega } \\ =& \frac{d (Y-X\omega) } {d \omega } \cdot \frac{d ||Y-X\omega||^2}{d(Y-X\omega )} \\ =& (-X^T) \cdot 2(Y-X\omega ) \\ =& -2X^TY+2X^T X\omega \end{aligned}$