a. 什么是岭回归和lasso回归?为什么要用岭回归和lasso回归?岭回归选参的一般原则是什么。
对OLS进行范数1正则化叫Lasso回归。
对OLS进行范数2正则化叫岭回归。
进行岭回归和Lasso回归的主要目的:
1.解决病态矩阵的过拟合和欠拟合问题。
2.消除多重共线性造成的行列式趋近于0,从而引起的大系数问题。
选参遵循原则如下:
(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
(2)随着lambda的增加,回归系数稳定,震动趋于零的自变量也可以剔除。
(3)开始(lambda=0)十分大,但是随着lambda的增加,迅速向0靠近的回归系数不重要。可以考虑剔除。
(4)开始(lambda=0)十分小,但是随着lambda的增加,回归系数绝对值迅速增速很快,说明该系数重要。
(5)如果两个系数已知不稳定,但从形状上看,总体上来说和是稳定的,这两个系数可以合并成一个新的系数。也可以选择不合并,不影响预测效果。
(6)一直处在波动状态的系数可以删除 。
(7)不稳定的,尤其逐步发散的,一直波动的参数都可以剔除。