多元线性回归

最新推荐文章于 2024-02-29 13:50:21 发布

Simp丶

最新推荐文章于 2024-02-29 13:50:21 发布

阅读量278

点赞数

分类专栏：机器学习文章标签：学习笔记

本文链接：https://blog.csdn.net/sp1206/article/details/79951113

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

多元变量梯度下降

$\begin{align*} & \text{repeat until convergence:} \; \lbrace \newline \; & \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_0^{(i)}\newline \; & \theta_1 := \theta_1 - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_1^{(i)} \newline \; & \theta_2 := \theta_2 - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_2^{(i)} \newline & \cdots \newline \rbrace \end{align*}$

特征缩放与均值归一化

为了使梯度下降能够更快的收敛，对于取值范围很大或者很小的特征，进行特征缩放与均值归一化处理。

x i : = x i - μ i s i

$x_i := \dfrac{x_i - \mu_i}{s_i}$
其中，

μi μ i $\mu_i$ 是特征

i i $i$ 的均值，

s_{i}

$s_i$ 是特征

i i $i$ 的取值区间长度或者标准差。

学习率（leanring rate， $\alpha$ ）

调试梯度下降

画图观察梯度下降法每次迭代的代价函数值 $J(\theta)$ ，如果 $J(\theta)$ 增大，说明应该减小 $\alpha$

自动收敛检验

如果在 $J(\theta)$ 的一次迭代中，减小的值小于 $10^{-3}$ ，则认为代价函数已经收敛。然而在实际操作中其实很难选到这种阈值。

如果 $\alpha$ 过小，收敛速度会很慢；
如果 $\alpha$ 过大，代价函数值不会在每次迭代时减小，所以不会收敛。

多项式回归

对于假设函数 $h_\theta(x) = \theta_0 + \theta_1 x_1$ ，可以基于 $x_1$ 构造新的特征 $x_1^2$ ， $x_1^3$ 或 $\sqrt{x_1}$ ，以此得到二次函数 $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2$ ，三次函数 $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2 + \theta_3 x_1^3$ ，和平方根函数 $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 \sqrt{x_1}$ 。

以三次函数 $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2 + \theta_3 x_1^3$ 为例，选择新的特征 $x_2=x_1^2$ ， $x_3=x_1^3$ ，就可以将三次函数拟合到三元线性函数 $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_3$ ，就可以使用多元线性回归来进行求解。

需要注意的是构造新的特征后，特征缩放变得尤为重要。

正规方程法

分别对n个特征变量求偏导数，偏导数等于0求 $\theta$
$\frac{\partial J(\theta)}{\partial \theta_j}=0$ ，for $j=0,1,\cdots,n$

$\theta = (X^T X)^{-1}X^T y$

$Y=X\theta$
$X^TY=X^TX\theta$
$(X^TX)^{-1}X^TY=\theta$

梯度下降法与正规方程法对比

梯度下降法	正规方程法
需要选择学习率 $\alpha$	不需要选择 $\alpha$
需要经过多次迭代计算	不需要迭代计算
在特征数量n很大时，依然可以有效计算	在n很大时，由于要计算 $(X^TX)^{-1}$ ,矩阵维度变大使计算量变大，计算缓慢
计算时间复杂度 $o(kn^2)$	时间复杂度 $o(n^3)$