概要:我们要区分岭回归和lasso以及LAR的关系,岭回归是用于消除多重共线性问题,也可以用于删除无效变量(贡献率低或打酱油变量,后面会提及)。Lasso是岭回归的改进算法,对删除无效变量有帮助,而LAR是求Lasso解的一种有效算法。
先进入多远线性回归问题,先观察以下矩阵:
这里y是因变量,β1~βp是所有X的系数,β0是常数,ε1~εn是误差。因此,多远线性回归可以表示成:
用矩阵乘法表示,更加简洁。那么问题来了,Y是结果,即因变量,而X是影响因素,即自变量,在实际分析中,Y和X是已知的。我们要求的就是β,即X的系数。这里根据数学推导,可以求的β的表达式为:
这个式子是用最小二乘法对β的估计结果,补充说明的是,该式可以化简为:
其中,叫做矩阵的广义逆。那么问题就继续分析求X的逆的问题,但在实际问题中,我们会面临两个重要问题,一是X是否是奇异矩阵,二是X中变量是不是都做出贡献。
为体现我的写博客宗旨,这里解释一下奇异性和贡献的意思,1,奇异矩阵的充要条件就是X矩阵的行列式为0(|X|=0),我们知道如果一个矩阵中存在某几个个向量共线(就是两个向量成比例),那这个矩阵的行列式就一定是0,即该矩阵叫做奇异矩阵。2,变量有没有贡献就是指某个X指标对结果Y有没有影响,比如Y是某学生的考试平均分,X中有x1(语文成绩),x2(数学成绩),x3(吃饭速度)……这里x3这个分量就是打酱油的数据,对Y的最终贡献率为0,那我们就要把x3这个分量剔除。
因此,直接用最小二乘法会遇到求不出解的情况,于是我们的问题就转而变成研究:1,消除共线性(去除奇异性);2,剔除无效分量x。在实际问题中,若某两个X分量的比值很大(数/很小的数),我们就认为这两个分量线性相关,而剔除无效分量的方法在后面会讲到。
岭回归(Ridge Regression,RR)
1962年由Heer首先提出,1970年后他与肯纳德合作进一步发展了该方法。RR要先对数据做标准化,为了记号方便,标准化后癿学习集仍然用X表示
其实岭回归说白了就是增加原矩阵的稳定性。公式如下:
,其中k称为岭参数。
岭回归的几个明显性质: