【ML】线性回归及梯度下降法

最新推荐文章于 2021-03-17 21:45:08 发布

一只干巴巴的海绵

最新推荐文章于 2021-03-17 21:45:08 发布

阅读量250

点赞数

分类专栏：机器学习数值优化

本文链接：https://blog.csdn.net/Hanx09/article/details/104651300

版权

机器学习同时被 2 个专栏收录

26 篇文章 2 订阅

订阅专栏

数值优化

4 篇文章 0 订阅

订阅专栏

线性回归模型

假设我们有如下关于信贷额度的一组数据：

工资	年龄	额度
4000	25	20000
8000	30	70000
5000	28	35000
7500	33	50000
12000	40	85000

这里额度(记为变量 $y$ )是我们想要预测的，而工资( $x_1$ )、年龄( $x_2$ )是我们可获得的、与贷款额度直接有关的，假设它们之间是线性相关的，建立如下的线性模型可以准确描述他们之间的关系：
$y=\theta_0+\theta_1x_1+\theta_2x_2+\epsilon$
根据已有数据估计出未知参数，之后，给定任何一个人的工资、年龄信息，都可以对其信贷额度作出合理预测，这是一个回归问题。倘若我们只想知道要不要给这个人贷款，这就变成了一个分类问题。

样本：数据集的每一行；
特征：数据集的某几列（工资、年龄），是易获得的，作为输入信息；
标签：关注的信息，想要作出预测（额度）；
参数： $\theta_0$ 称为偏置项，对最后结果影响较小； $\theta_i$ 反映第 $i$ 个特征对标签的影响程度。
误差项：样本总是有噪声的，包括数据获取过程中存在的误差、计算误差等等。

记：样本量 $n$ ，自变量数量 $p$ ，因变量 $y$ ，自变量 $x_1,..,x_p$ ；因变量、自变量的观测数据： $y_{n\times1}=(y^{(1)},...,y^{(n)})^T$ ， $X_{n\times p}=(x^{(1)},...,x^{(n)})^T$ ，其中 $\{x^{(i)}=(x^i_1,...,x^i_p),y^{(i)}\}$ 表示第 $i$ 个样本，可写一般地线性回归模型：
$y=X\theta+\epsilon$
对每个样本有：
$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)} \quad (1\leq i\leq n)$
其中，参数 $\theta_{p\times1}=(\theta_1,...,\theta_p)^T$ ，误差项 $\epsilon_{n\times1}=(\epsilon^{(1)},...,\epsilon^{(n)})^T$ 。

建立线性回归模型的变量需满足假设：

线性性：单个自变量对因变量的影响是线性的，即， $x_i$ 变化一个单位，自变量变化 $\theta_i$ 个单位，与自变量的绝对值无关；
可加性：单个自变量对因变量的影响与其他自变量无关；
自变量之间相互独立；
误差项 $\epsilon\sim\mathcal{N}(0,\sigma^2)$ ； $\epsilon^{(i)}$ 相互独立，均取自正态分布 $\epsilon\sim\mathcal{N}(0,\sigma^2I)$ 。

为什么假设误差项服从正态分布？

中心极限定理：独立同分布的随机变量 $X_1,...,X_n,...$ 具有有限的期望 $E[X_i]=\mu$ 和方差 $Var(X_i)=\sigma^2$ ，则当 $n$ 很大时，随机变量 $Y_n=\frac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}=\frac{\bar{X}-E[\bar{X}]}{Var(\bar{X})}$ 近似地服从标准正态分布 $\mathcal{N}(0,1)$ 。
一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。

参数估计

1. 最小二乘法

思想：极小化残差平方和，
$\min_{\theta} J(\theta)=(y-X\theta)^T(y-X\theta)$
可写向量形式：
$\min_{\theta} J(\theta)=\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$

无约束优化问题最优性条件：
设 $f(x):\Omega\rightarrow\mathbb{R},\Omega\in\mathbb{R}^n$ 为连续可微函数，无约束优化问题 $\min_{x\in\Omega} f(x)$ 存在局部极小值 $x^*$ 的充分必要条件为：

$\nabla_xf(x^*)=0$
$x^*$ 处的Hessian矩阵半正定，即 $v^T(\nabla^2f(x^*))v\geq0,\forall v\in \mathcal{R}^n$ 。

凸优化问题条件2自然成立。

这是一个凸优化问题，极值点即为最优点。
$\frac{\partial}{\partial\theta}J(\theta)=2(-X^T)(y-X\theta)=X^TX\theta-X^Ty=0$
在 $X^TX$ 可逆的条件下有，
$\theta=(X^TX)^{-1}X^Ty$

$\frac{\partial a^T b}{\partial\theta}= \frac{\partial a^T}{\partial\theta}b+\frac{\partial b^T}{\partial\theta}a$ ， $\frac{\partial (Ax)^T}{\partial\ x}=A^T$

2. 最大似然估计

由假设， $\epsilon\sim\mathcal{N}(0,\sigma^2I)$ ， $\epsilon$ 概率密度函数：
$\phi(\epsilon)=(2\pi)^{-n/2}\sigma^{-n}exp[-\sigma^2/2\epsilon^T\epsilon]$
在给定 $X$ 、 $\theta$ 条件下， $y$ 的概率密度函数为：
$f(y|X,\theta)=(2\pi)^{-n/2}\sigma^{-n}exp[-\sigma^2/2(y-X\theta)^T(y-X\theta)]$
似然函数是在给定参数下，数据出现的可能性，
$L(\theta)=f(y|X,\theta)$
对数似然函数，
$\log L(\theta)=-n/2\log(2\pi)-n\log(\sigma)-\sigma^2/2(y-X\theta)^T(y-X\theta)$
极大化对数似然函数，
$\max_{\theta}\log L(\theta)\Longleftrightarrow\min_{\theta} J(\theta)=(y-X\theta)^T(y-X\theta)$

这说明：在假设 $\epsilon\sim\mathcal{N}(0,\sigma^2I)$ 下，线性回归模型的最大似然估计等价于最小二乘估计。

评估方法

$R^2=1-\frac{\sum_{i=1}^n(\hat{y}_i-y_i)^2}{\sum_{i=1}^n(y_i-\bar{y})^2}$
$R^2$ 越接近于1模型拟合的越好。

梯度下降法

梯度下降法又称最速下降法，是求解无约束优化问题的数值优化方法，设有无约束优化问题
$min_{x}f(x)$
最优化方法的基本迭代格式为：

给定最优解的一个初始估计 $x^{(0)}$ ， $k = 0$ ；
如果 $x^{(k)}$ 满足对最优解估计的终止条件，停止迭代；
确定一个改善 $x^{(k)}$ 的修正量 $s^{(k)}$ ；
得到最优解的一个更好的估计 $x^{(k+1)}=x^{(k)}+s^{(k)}$ ，令 $k = k + 1$ ，转步骤2。

修正量 $s^{(k)}：$

单调下降算法：先确定一个下降方向 $d^{(k)}$ ，再确定一个下降步长 $\alpha^{(k)}$ 控制下降幅度，即 $s^{(k)}=\alpha^{(k)}d^{(k)}$ ；非单调下降算法仅要求若干步后函数值下降。

迭代停止准则：

设置最大迭代次数，即设置 $k$ 的上界；
$||\nabla f(x^{(k)}||\leq\epsilon$ ，给定精度 $\epsilon$ ;【合理性：最优性条件 $\nabla f(x)=0$ 】
$||x^{(k+1)}-x^{(k)}||\leq\epsilon$ ，对具有超线性收敛的算法比较合适；
- 算法超线性收敛： $\lim_{k\rightarrow\infty}\frac{||x^{(k+1)}-x^*||}{||x^{(k)}-x^*||}=0$
- 算法超线性收敛时， $x^{(k+1)}-x^{(k)}||$ 是 $x^{(k+1)}-x^*||$ 的一个估计。
$|f(^{(k+1)})-f(^{(k)})|\leq0$ ，对于快速收敛的算法很有效。
- $f (x)$ 二次连续可微时， $f(^{(k+1)})-f(^{(k)})|=O(||x^{(k+1)}-x^{(k)}||^2)$

为确保所得到的是最优解满意的估计，往往采用两个或几个收敛准则同时使用的方法。

梯度下降法取函数值下降最快的方向作为下降方向：

给出 $x^{(0)}\in\mathcal{R}^n$ ， $0\leq \epsilon\ll1$ ， $k = 0$ ；
计算 $d_k=-\nabla f(x^{(k)})$ ，若 $||\nabla f(x^{(k)})||<\epsilon$ ，则停止；
线性搜索步长因子 $\alpha_k$ ；
迭代 $x^{(k+1)}=x^{(k)}+\alpha_kd_k$
$k = k + 1$ ，转步骤2.

注：文中，向量 $x$ 范数 $||x||=\sum_{i}x_i^2$ ，内积 $<x,y>=\sum_{i}x_iy_i=x^Ty$ 。

为什么负梯度方向是下降最快的方向

解释1：
【定理】若函数 $f$ 在点 $P_0$ 可微，则 $f$ 在点 $P_0$ 处沿任一方向 $l$ 的方向导数均存在，且方向导数与梯度具有满足： $f_l(P_0)=\nabla f(P_0)l_0=|\nabla f(P_0)|cos\theta$ $\theta$ 是梯度方向与 $l$ 的夹角。
由定理知： $\theta=0$ 时，方向导数取最大值，即梯度方向是函数值增长最快的方向； $\theta=\pi$ 时，方向导数取最小值，即负梯度方向是函数值下降最快的方向。

解释2：
设函数 $f$ 在 $x^{(k)}$ 附近连续可微，在 $x^{(k)}$ 处的泰勒展开为： $f(x)=f(x^{(k)})+\nabla f(x^{(k)})^T(x-x^{(k)})+o(||x-x^{(k)}||)$ 令 $x-x^{(k)}=\alpha d_k$ ，可写上式， $f(x^{(k)}+\alpha d_k)=f(x^{(k)})+\nabla f(x^{(k)})^T(x-x^{(k)})+o(||\alpha d_k||)$ 可知，下降方向为 $\{d_k|\nabla f(x^{(k)})^Td_k<0\}$ ，最速下降方向： $\min_{d_k}\nabla f(x^{(k)})^Td_k$
由柯西施瓦茨不等式， $|\nabla f(x^{(k)})^Td_k|=|<\nabla f(x^{(k)}),d_k>|\leq ||d_k||||\nabla f(x^{(k)})||$ 等式成立当且仅当 $\nabla f(x^{(k)})$ 与 $d_k$ 共线，显然负梯度方向最小，梯度方向最大。

梯度下降法求解线性模型参数

线性回归模型的参数估计问题可转换为求解无约束优化问题：
$\min_{\theta} J(\theta)=\frac{1}{2n}\sum_{i=1}^n(y^{(i)}-h_\theta(x^{(i)}))^2,\quad h_\theta(x^{(i)})=\theta^Tx^{(i)}$
梯度函数，
$\frac{\partial}{\partial\theta_j}J(\theta)=-\frac{1}{n}\sum_{i=1}^n(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}$
注：这里 $J(\theta)$ 对之前的作了一个平均，将误差视作一种损失，那这里的 $J(\theta)$ 就是平均损失函数。

根据使用的样本量的不同，有以下3种梯度下降法：

批量梯度下降：利用所有样本计算，已得到最优解，但速度慢。 $\theta_j^{k+1}=\theta_j^k+\eta\frac{1}{n}\sum_{i=1}^n(y^{(i)}-h_{\theta_j^{k}}(x^{(i)}))x_j^{(i)}$
随机梯度下降法：随机选择一个样本计算，速度快，但不能保证每次都是沿着收敛的方向。 $\theta_j^{k+1}=\theta_j^{k}+\eta(y^{(i)}-h_{\theta_j^{k}}(x^{(i)}))x_j^{(i)}$
小批量梯度下降法：选择一小部分样本计算，计算量小，比较实用。 $\theta_j^{k+1}=\theta_j^k+\eta\frac{1}{10}\sum_{i=l}^{l+9}(y^{(i)}-h_{\theta_j^{k}}(x^{(i)}))x_j^{(i)}$