lasso的今世前身
引言
年关将至,少不了写年终总结。自己也绞尽脑汁对研读的统计文献做一个总结。我们来聊聊20年前诞生的lasso。lasso理论文章由统计学家Tibshirani, R在于1996年提出,并获得了里程碑式的影响。简单概述,lasso的目的就是选择合适的自变量。茫茫变量中怎么遇见合适的它。
此处说明下我们为什么要进行选变量这个动作?
-变量维数多并且变量之间存在相关关系,所以剔除不重要的变量,选择合适的变量成为了统计学习里面的一个重点。
传统选变量方法
(1). Cp 统计量
数学公式为: Cp=RSSqδ2−(n−2q)
(2). AIC 准则
数学公式为:AIC= nln(RSSq)+2q
(3). BIC 准则
数学公式: BIC=−2ln(RSSq)+ln(n)∗k
其中 RSSq 是在该模型下的残差平方和,q是模型的变量个数。
R语言中有AIC,BIC函数。
lm1 <- lm(Fertility ~ . , data = swiss)
lm2 <- update(lm1, . ~ . -Examination)
AIC(lm1, lm2)
BIC(lm1, lm2)
注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失【因为不知道真正的模型是什么样子,所以训练得到的所有模型都只是真实模型的一个近似模型】。
这些规则理论上是比较漂亮的,但是实际在模型选择中应用起来还是有些困难的,
(1).茫茫变量中这种枚举的方式,计算量太大,典型的NP问题。
(2).通过这种离散的方式选择变量,模型并不稳定。即数据有许变化,模型就会有所改变。
所以上述方法更适合于模型之间的比较。
岭估计
针对变量之间存在相关性,引入岭的概念,使得 <