线性回归存在问题:
在处理复杂的回归问题时,普通的线性回归问题会出现预测精度不够的问题,如果模型中特征之间有较强的相关关系时,即特征之间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计的方差太大,求出来的模型就很不稳定。再具体取值上与真值有较大偏差。这时就需要对数据中的特征进行提取,回归算法里面的特征选择的方法有岭回归和 Lasso 回归。这两种方法都属于正则化的特征选择方法,在处理复杂的数据回归问题中常用。
一、岭回归Rdige Regression模型
岭回归在平均误差的基础上增加正则项:
其中,,通过确定的值可以使得在方差和偏差之间达到平衡:随着的增大,模型方差减少而偏差增大。
岭回归模型的求解:
利用最小二乘法求解岭回归模型的参数,对W求导并令其为零。
二、Lasso 回归模型
Lasso 采用的则是 L1正则,即 Lasso是在平方误差的基础上增加 L1 正则:
与基于 L2 回归的岭回归不同的是,上述的损失函数在 处不可导,因此传统的基于梯度的方法不能直接用来求解损失函数。问了解决这个问题,采用近似的优化算法,或者采用一些简单的方法来近似这样的优化算法。
三、拟牛顿法
BFGS 算法是使用较多的一种拟牛顿方法,是由 Broyde、Fletcher、Goidfarb和Shanno 四人提出,所以称为 BFGS。(莫名想到TFBOYS,哈哈哈哈哈)
对于拟牛顿方程:
令,则可得: