回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。
一、算法的推导
1.1 符号规定
x j ( i ) x_{j}^{(i)} xj(i)表示数据集第 i i i个数据的第 j j j个属性取值,数据集 X X X一共有 m m m个数据, n n n个属性(特征)。
1.2 线性回归模型
模型定义为: f ( x ) = w 0 + w 1 x 1 + w 2 x 2 + . . . + w n x n f(x)=w_0 + w_1 x_1 + w_2 x_2 + ... + w_n x_n f(x)=w0+w1x1+w2x2+...+wnxn。
使用矩阵来表示就是 f ( x ) = X W f(x)=XW f(x)=XW,其中: W = [ w 0 w 1 . . . w n ] W=\begin{bmatrix}w_0\\w_1\\...\\w_n\end{bmatrix} W=⎣⎢⎢⎡w0w1...wn⎦⎥⎥⎤是所要求得一系列参数, X = [ 1 x 1 ( 1 ) . . . x m ( 1 ) 1 x 1 ( 2 ) . . . x m ( 2 ) . . . . . . . . . . . . 1 x 1 ( m ) . . . x n ( m ) ] X=\begin{bmatrix}1 &x_{1}^{(1)} &... &x_{m}^{(1)} \\ 1 &x_{1}^{(2)} &... &x_{m}^{(2)} \\ ... &... &... &... \\ 1 &x_{1}^{(m)} &... &x_{n}^{(m)} \end{bmatrix} X=⎣⎢⎢⎢⎡11...1x1(1)x1(2)...x1(m)............xm(1)xm(2)...xn(m)⎦⎥⎥⎥⎤是输入的数据矩阵,因为考虑 w 0 w_0 w0所以在 X X X第一列加上了一列1。 X X X的一行可以看做一个完整的输入数据, n n n代表一个数据有 n n n个属性(特征), m m m行代表一共是 m m m个数据。数据集标签为 y = [ y ( 1 ) y ( 2 ) . . . y ( m ) ] y=\begin{bmatrix}y^{(1)}\\ y^{(2)}\\ ...\\ y^{(m)}\end{bmatrix} y=⎣⎢⎢⎡y(1)y(2)...y(m)⎦⎥⎥⎤。
线性回归模型的目标就是找到一系列参数 w w w来使得 f ( x ) = X W f(x)=XW f(x)=XW尽可能地贴近 y y y。
具体目标如图找到一条直线使得尽可能符合数据的分布,从而有一个新的样本点时,可利用学习得到的这条直线进行预测。
1.3 损失函数
使用均方误差作为损失函数,使用均方误差最小化目标函数的方法称为最小二乘法。
使用均方误差的原因:有十分好的几何意义,对应了常用的欧式距离。在线性回归中,就是找到一个直线,使得所有样本到直线的欧式距离最小。
损失代价函数定义为: J ( w ) = 1 m ∑ i = 1 m ( f ( x ( i ) ) − y ( i ) ) 2 = 1 m ( X W − y ) T ( X W − y ) J(w)=\frac{1}{m} \sum_{i=1}^{m} (f(x^{(i)})-y^{(i)}) ^2=\frac { 1 } { m } ( X W - y ) ^ { T } ( X W - y ) J(w)=m1∑i=1m(f(x(i))−y(i))2=m1(XW−y)T(XW−y)。
展开后得到: J ( w ) = 1 m ( W T X T X W − W T X T y − y T X W + y T y ) = 1 m ( W T X T X W − 2 W T X T y + y T y ) J ( w ) = \frac { 1 } { m } \left( W ^ { T } X ^ { T } X W - W ^ { T } X ^ { T } y - y ^ { T } X W + y ^ { T } y \right)=\frac { 1 } { m } \left( W ^ { T } X ^ { T } X W - 2 W ^ { T } X ^ { T } y + y ^ { T } y \right) J(w)=m1(WTXTXW−WTXTy−yTXW+yTy)=m1(WTXTXW−2WTXTy+yTy)
1.4 损失函数求解
当 X T X X^{T}X XTX为满秩矩阵或者正定矩阵时,可使用正规方程法,直接求得闭式解。
令 ∂ J ( w ) ∂ w = 0 \frac { \partial J ( w ) } { \partial w }=0 ∂w∂J(w)=0,即: ∂ J ( w ) ∂ w = 2 X T ( X W − y ) m = 0 \frac { \partial J ( w ) } { \partial w } = \frac { 2 X ^ { T } ( X W - y ) } { m }= 0 ∂w∂J(w)=m2XT(XW−y)=0,可得: W ∗ = ( X T X ) − 1 X T y W ^ { * } = \left(X ^ { T } X \right) ^ { - 1 } X ^ { T } y W∗=(XTX)−1XTy。
但一般 X T X X^{T}X XTX不能满足满秩矩阵或者正定矩阵的条件,此时可使用梯度下降法。
梯度下降的迭代更新:
W ← W − α ∂ J ( W ) ∂ W W \leftarrow W - \alpha \frac { \partial J ( W ) } { \partial W } W←W−α∂W∂J(W),其中 α \alpha α是学习率,是一个梯度下降需要的超参数。
可得到梯度下降迭代过程,即: W ← W − 2 m α X T ( X W − y ) W \leftarrow W - \frac { 2 } { m } \alpha X ^ { T } ( X W - y ) W←W−m2αXT(XW−y)。
二、使用均方误差的解释
先提出两个假设:
- 假设一:每一个样例 ( x ( i ) , y ( i ) ) \left( x ^ { (i) } , y ^ { (i) } \right) (x(i),y(i)), x x x和目标值 y y y的关系: y ( i ) = θ T x ( i ) + ε ( i ) y ^ { (i) } = \theta ^ { T } x ^ { ( i ) } + \varepsilon ^ { ( i ) } y(i)=θTx(i)+ε(i),其中 ε ( i ) \boldsymbol { \varepsilon } ^ { (i) } ε(i)表示$ \theta ^ { T } x ^ { ( i ) }$与目标值的误差。
- 假设二: ε ( i ) \boldsymbol { \varepsilon } ^ { (i) } ε(i)服从正态分布: ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N \left( 0,\sigma ^ { 2 } \right) ε∼N(0,σ2)。
解释:根据中心极限定理——许多独立随机变量的和趋向于正态分布,因为影响误差的因素有很多,而这些因素都是独立且随机分布的,所得根据此可得假设二。
由此可得: P ( ε ( i ) ) = 1 2 π σ exp ( − ( ε ( i ) ) 2 2 σ 2 ) P \left( \varepsilon ^ { (i) } \right) = \frac { 1 } { \sqrt { 2 \pi } \sigma } \exp \left( - \frac { \left( \varepsilon ^ { (i) } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right) P(ε(i))=2πσ1exp(−2σ2(ε(i))2),从而也表示,当给定参数 θ \theta θ和 x x x时,目标值 y y y也服从正态分布,所以有: P ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( θ T x ( i ) − y ( i ) ) 2 2 σ 2 ) P \left( y ^ { (i) } | x ^ { ( i ) } ; \theta \right)=\frac { 1 } { \sqrt { 2 \pi } \sigma } e x p \left( - \frac { \left( \theta ^ { T } x ^ { ( i ) } - y ^ { ( i ) } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right) P(y(i)∣x(i);θ)=2πσ1exp(−2σ2(θTx(i)−y(i))2)。
- 假设三:对于误差 ε ( i ) \boldsymbol { \varepsilon } ^ { (i) } ε(i),是IID(独立同分布)的随机变量。
根据这些假设,利用极大似然估计,来求解:
似然函数: l ( θ ) = P ( Y ∣ x ; θ ) = ∏ i = 1 m P ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m 1 2 π σ e x p ( − ( θ T x ( i ) − y ( i ) ) 2 2 σ 2 ) l ( \theta ) = P ( Y | x ; \theta )=\prod_{i=1}^{m} P \left( y ^ { (i) } | x ^ { ( i ) } ; \theta \right)=\prod_{i=1}^{m}\frac { 1 } { \sqrt { 2 \pi } \sigma }e x p \left( - \frac { \left( \theta ^ { T } x ^ { ( i ) } - y ^ { ( i ) } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right) l(θ)=P(Y∣x;θ)=∏i=1mP(y(i)∣x(i);θ)=∏i=1m2πσ1exp(−2σ2(θTx(i)−y(i))2),
对似然函数取对数得: L ( θ ) = l o g l ( θ ) = l o g ∏ i = 1 m 1 2 π σ e x p ( − ( θ T x ( i ) − y ( i ) ) 2 2 σ 2 ) = ∑ i = 1 m l o g [ e x p ( − ( θ T x ( i ) − y ( i ) ) 2 2 σ 2 ) ] = m l o g 1 2 π σ + ∑ i = 1 m − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 L(\theta)=logl(\theta)=log\prod_{i=1}^{m}\frac { 1 } { \sqrt { 2 \pi } \sigma }e x p \left( - \frac { \left( \theta ^ { T } x ^ { ( i ) } - y ^ { ( i ) } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right)=\sum_{i=1}^{m}log[e x p \left( - \frac { \left( \theta ^ { T } x ^ { ( i ) } - y ^ { ( i ) } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right)]=mlog\frac { 1 } { \sqrt { 2 \pi } \sigma } + \sum_{i=1}^{m}-\frac { \left( y ^ { ( i ) } - \theta ^ { T } x ^ { ( i ) } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } L(θ)=logl(θ)=log∏i=1m2πσ1exp(−2σ2(θTx(i)−y(i))2)=∑i=1mlog[exp(−2σ2(θTx(i)−y(i))2)]=mlog2πσ1+∑i=1m−2σ2(y(i)−θTx(i))2所以,最大化 L ( θ ) L(\theta) L(θ)等价于最小化 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 2 = J ( θ ) \sum_{i=1}^{m}\frac { \left( y ^ { (i) } - \theta ^ { T } x ^ { (i) } \right) ^ { 2 } } { 2 } = J ( \theta ) ∑i=1m2(y(i)−θTx(i))2=J(θ),即证得最小二乘法实际上是在假设误差项满足高斯分布且独立同分布情况下,使似然性最大化。
三、线性回归的过拟合和欠拟合
解决线性回归过拟合的方法:
- 分析数据,重新做数据清冼,将征工程。
- 扩充数据集,收集更多数据。
- 减少特征数量 。
- 采用正则化方法
- L1正则化(Lasso回归):稀疏化模型参数。
- L2正则化(Rideg/岭回归):缩小模型参数。
- L1+L2正则化(弹性网络/ElasticNet): λ ( p ∑ j = 1 m ∣ θ j ∣ + ( 1 − p ) ∑ j = 1 m ∣ θ j 2 ∣ ) , p ∈ [ 0 , 1 ] \lambda(p\sum_{j=1}^{m}|\theta_j|+(1-p)\sum_{j=1}^{m}|\theta^{2}_j|),p\in [0,1] λ(p∑j=1m∣θj∣+(1−p)∑j=1m∣θj2∣),p∈[0,1]。
解决线性回归欠拟合的方法:
- 分析数据,增加特征淮度。
- 增加多项式特征阶数。
- 减小正则项的超参系数值。
- 局部加权回归(详情见第7节)。
四、线性回归计算复杂度
-
采用批量梯度下降时复杂度: O ( m n ) O(mn) O(mn)(每次迭代)。
-
采用随机梯度下降时复杂度: O ( n ) O(n) O(n)(1个样本迭代)。
-
采用批量梯度下降时复杂度: O ( t n ) O(tn) O(tn)(t个样本迭代)。
五、线性回归的应用场景
- 自变量和因变量之间是线性关系时
- 适应于低维数据,而且每一维之间没有共线性(共线性是指变量之间由于存在精确相关关系或高度相关关系使模型准确率失真)
多重共线性影响模型的原因:
设模型为:$Y=\beta_0+\beta_0 x_1 + … + \beta_p x_p + \varepsilon , 矩 阵 形 式 为 ,矩阵形式为 ,矩阵形式为Y=\beta_0I+X\beta+\varepsilon , 其 中 ,其中 ,其中I=(1, 1, …, 1)^T,\varepsilon \sim N \left( 0 , \sigma ^ { 2 } I_n \right)$。
设矩阵 X X X为 m × p m\times p m×p形式的,且秩为 p p p。
β 0 \beta_0 β0的最小二乘估计为 β ^ 0 = Y ~ = 1 m ∑ j = 1 m y ( i ) \hat { \beta } _ { 0 } = \tilde { Y } = \frac { 1 } { m }\sum_{j=1}^{m}y^{(i)} β^0=Y~=m1∑j=1my(i),回归系数LS估计为 β ^ = β 1 , . . . , β p ^ = ( X T Y ) − 1 X T Y \hat { \beta } = \hat { \beta_1, ..., \beta_p }=\left( X ^ { T } Y \right) ^ { - 1 } X ^ { T } Y β^=β1,...,βp^=(XTY)−1XTY,因此获得的LS估计是无偏的。
于是$\hat { \beta } 均 方 误 差 为 均方误差为 均方误差为\operatorname { MSE } ( \hat { \beta } ) = E ( \hat { \beta } - \beta ) ^ { T } ( \hat { \beta } - \beta )=\sigma2\sum_{i=1}{p}\frac { 1 } { \lambda_i } , 其 中 ,其中 ,其中\lambda _ { 1 } \geq\lambda _ { 2 } \geq…\geq\lambda _ { p } \geq0 是 是 是XTX$的特征根。如果$XTX$至少有一个特征根非常接近零,则 M S E ( β ^ ) MSE ( \hat { \beta } ) MSE(β^)就会很大,$\hat { \beta } 就 不 是 就不是 就不是\beta$的一个好的估计。
并且,若 X T X X^TX XTX的某个特征根接近零,就说明矩阵 X X X列向量之间(特征间)存在近似的线性关系。
六、线性回归的优缺点
优点
- 直接。
- 快速。
- 可解释性好。
缺点
-
需要严格的假设。
-
需处理异常值,对异常值很敏感,对输入数据差异也很敏感。
-
线性回归存在共线性,自相关,异方差等问题。
七、局部加权线性回归
回归预测模型中,预测模型的准确度特别依赖于特征选择,局部加权线性回归解决了这个问题,预测性能不太依赖于特征选择,又很好避免过拟合,欠拟合风险。
局部加权线性回归是通过引入偏差来降低预测的均方误差,针对不同点能够对误差进行调整便可以一定程度上避免线性回归带来的欠拟合现象。
7.1 局部加权回归的损失函数
J ( θ ) = ∑ j = 1 m w ( i ) ( y ( i ) − θ T x ( i ) ) 2 J ( \theta ) =\sum_{j=1}^{m}w ^ { ( i ) } ( y ^ { (i) } - \theta ^ { T } x ^ { ( i ) } ) ^ { 2 } J(θ)=∑j=1mw(i)(y(i)−θTx(i))2,其中 w ( i ) w ^ { ( i ) } w(i)采用高斯核时, w ( i ) = exp ( − ( x ( i ) − x ) 2 k 2 ) w ^ { ( i ) } = \exp \left( - \frac { \left( x ^ { (i) } - x \right) } { 2 k ^ { 2 } } \right) w(i)=exp(−2k2(x(i)−x))。
7.2 局部加权回归的参数解释
k
k
k:波长参数,控制了权值随距离下降速率。
k
→
∞
k \rightarrow \infty
k→∞时,所有权重趋于1,变为标准线性回归;
k
→
0
k \rightarrow 0
k→0时,距离较大样本点无法参与回归参数的求取过程,避免造成过拟合。
x
x
x:要预测的点。
x
(
i
)
x^{(i)}
x(i):数据集中点。
当两点越近时,权重w越大,对回归系数贡献越大。该函数形似高斯分布,但没有任何高斯分布意义,是一个非参数学习方法。
7.3 局部加权回归相比线性回归的优缺点
优点:不过分依赖特征选择。
缺点:计算量增大。