岭回归,Lasso和LAR学习(一)

概要:我们要区分岭回归和lasso以及LAR的关系,岭回归是用于消除多重共线性问题,也可以用于删除无效变量(贡献率低或打酱油变量,后面会提及)。Lasso是岭回归的改进算法,对删除无效变量有帮助,而LAR是求Lasso解的一种有效算法。  


先进入多远线性回归问题,先观察以下矩阵:

  这里y是因变量,β1~βp是所有X的系数,β0是常数,ε1~εn是误差。因此,多远线性回归可以表示成:


    用矩阵乘法表示,更加简洁。那么问题来了,Y是结果,即因变量,而X是影响因素,即自变量,在实际分析中,Y和X是已知的我们要求的就是β,即X的系数。这里根据数学推导,可以求的β的表达式为:


    这个式子是用最小二乘法对β的估计结果,补充说明的是,该式可以化简为:

    其中,叫做矩阵的广义逆。那么问题就继续分析求X的的问题,但在实际问题中,我们会面临两个重要问题,一是X是否是奇异矩阵,二是X中变量是不是都做出贡献。


    为体现我的写博客宗旨,这里解释一下奇异性和贡献的意思,1,奇异矩阵的充要条件就是X矩阵的行列式为0(|X|=0),我们知道如果一个矩阵中存在某几个个向量共线(就是两个向量成比例),那这个矩阵的行列式就一定是0,即该矩阵叫做奇异矩阵。2,变量有没有贡献就是指某个X指标对结果Y有没有影响,比如Y是某学生的考试平均分,X中有x1(语文成绩),x2(数学成绩),x3(吃饭速度)……这里x3这个分量就是打酱油的数据,对Y的最终贡献率为0,那我们就要把x3这个分量剔除。


    因此,直接用最小二乘法会遇到求不出解的情况,于是我们的问题就转而变成研究:1,消除共线性(去除奇异性);2,剔除无效分量x。在实际问题中,若某两个X分量的比值很大(数/很小的数),我们就认为这两个分量线性相关,而剔除无效分量的方法在后面会讲到。


     岭回归(Ridge Regression,RR)

    1962年由Heer首先提出,1970年后他与肯纳德合作进一步发展了该方法。RR要先对数据做标准化,为了记号方便,标准化后癿学习集仍然用X表示
    其实岭回归说白了就是增加原矩阵的稳定性。公式如下:

,其中k称为岭参数。


岭回归的几个明显性质:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值