线性回归、岭回归(Ridge Regression)和Lasso回归关系
线性回归、岭回归(Ridge Regression)和Lasso回归是三种常用的回归方法,本质都是线性回归方法,它们的核心区别在于对模型复杂度的控制方式以及对特征的处理。以下是它们的详细对比:
1. 线性回归(Linear Regression)
- 核心思想:通过最小化预测值与真实值之间的均方误差(MSE)来拟合数据。
- 损失函数:
J ( β ) = ∑ i = 1 n ( y i − β 0 − ∑ j = 1 p β j x i j ) 2 J(\beta) = \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 J(β)=i=1∑n(yi−β0−j=1∑pβjxij)2 - 特点:
- 无正则化项,直接最小化误差。
- 当特征高度相关或特征数大于样本数时,模型容易过拟合。
- 无法处理多重共线性问题(特征之间高度相关)。
2. Lasso回归(Lasso Regression)
- 核心思想:在线性回归的损失函数中加入 L1正则化项,通过稀疏化系数实现特征选择。
- 损失函数:
J ( β ) = ∑ i = 1 n ( y i − β 0 − ∑ j = 1 p β j x i j ) 2 + λ ∑ j = 1 p ∣ β j ∣ J(\beta) = \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| J(β)=i=1∑n(yi−β0−j=1∑pβjxij)2+λj=1∑p∣βj∣ - 特点:
- L1正则化(系数的绝对值之和)会将部分系数压缩到零,从而实现特征选择。
- 适用于高维数据(特征数远大于样本数)的场景,可自动筛选重要特征。
- 当特征高度相关时,Lasso可能随机选择一个特征,而岭回归会平分权重。
3. 岭回归(Ridge Regression)
- 核心思想:在线性回归的损失函数中加入 L2正则化项,通过对系数进行约束防止过拟合。
- 损失函数:
J ( β ) = ∑ i = 1 n ( y i − β 0 − ∑ j = 1 p β j x i j ) 2 + λ ∑ j = 1 p β j 2 J(\beta) = \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p \beta_j^2 J(β)=i=1∑n(yi−β0−j=1∑pβjxij)2+λj=1∑pβj2 - 特点:
- L2正则化(系数的平方和)会压缩系数大小,但不会将系数完全压缩到零。
- 适用于处理多重共线性问题,提高模型的稳定性。
- 超参数 (\lambda) 控制正则化强度:(\lambda) 越大,系数压缩越明显。
核心区别总结
特性 | 线性回归 | Lasso回归(L1) | 岭回归(L2) |
---|---|---|---|
正则化项 | 无 | L1正则化(系数绝对值之和) | L2正则化(系数平方和) |
系数处理 | 可能过大或过拟合 | 压缩部分系数到零(稀疏化) | 压缩系数但不为零 |
特征选择能力 | 无 | 有 | 无 |
适用场景 | 低维、无共线性 | 高维、需要特征选择 | 高维、存在共线性 |
超参数调优 | 无 | λ \lambda λ(控制稀疏性) | λ \lambda λ(控制压缩强度) |
几何解释 | 无约束优化 | 菱形约束(系数在菱形顶点) | 圆形约束(系数在圆内) |
补充说明
- 弹性网络(Elastic Net):结合了L1和L2正则化,适用于同时需要特征选择和解决共线性的场景。
- 选择建议:
- 如果特征数量多且需要筛选,用Lasso。
- 如果特征之间有强相关性,用岭回归。
- 如果特征数远大于样本数,优先Lasso或弹性网络。
理解三者的区别有助于根据实际问题选择合适的模型,平衡模型的偏差与方差,提升泛化能力。