Lasso回归和岭回归

最新推荐文章于 2023-11-13 21:12:08 发布

周永吉

最新推荐文章于 2023-11-13 21:12:08 发布

阅读量1.6k

点赞数

文章标签：回归机器学习人工智能

本文链接：https://blog.csdn.net/Z201209/article/details/126924393

版权

岭回归与LASSO回归模型是线性回归模型的延申，在多元线性回归模型中我们知道，回归模型的参数估计公式推导的结果是：β = ( X ′ X ) − 1 X ′ y \beta=(X'X)^{-1}X'yβ=(X ′X) −1X ′y，可知，得到β \betaβ的前提是矩阵X ′ X X'XX ′X可逆，但我们又有一个关于可使用线性回归模型的假设前提：多个自变量之间不存在多重共线性。但是在实际应用中，此种情况不可避免（一个实际应用的例子：家庭收入与支出，由于支出占收入的一部分，描绘成数值可想而知，存在共线性）。
如果自变量的个数多于样本量（可以认为是样本量不足，通常我们要求样本量远大于自变量个数）或者自变量之间存在多重共线性，此时将无法根据公式计算回归系数的估计值β \betaβ。为了解决这类问题，统计学家提出了基于线性回归模型进行扩展的岭回归与LASSO回归模型。

Lasso(Least absolute shrinkage and selection operator)方法是以缩小变量集（降阶）为思想的压缩估计方法。它通过构造一个惩罚函数，可以将变量的系数进行压缩并使某些回归系数变为0，进而达到变量选择的目的。
岭回归，又叫吉洪诺夫正则化，是由Hoerl和Kennard于1970年提出的是一种专用于共线性数据分析的有偏估计回归法。岭回归实际上是一种改良的最小二乘估计法，具有L2正则化的线性最小二乘法。回归算法的，本质就是为了解决一个线性方程，而标准估计方法是普通的最小二乘法的线性回归。当使用最小二乘法计算线性回归模型参数的时候，如果数据集合矩阵存在多重共线性（数学上称为病态矩阵），那么最小二乘法对输入变量中的噪声非常的敏感，如果输入变量x有一个微小的变动，其反应在输出结果上也会变得非常大，其解会极为不稳定。为了解决这个问题，就有了优化算法岭回归（Ridge Regression ）。