ridge regression岭回归

岭回归用于处理下面两类问题:

1.数据点少于变量个数

2.变量间存在共线性

变量间存在共线性是,最小二乘回归得到的系数不稳定,方差很大,这是因为系数矩阵x与它的转置矩阵相乘得到的矩阵不能求逆,而ridge regression通过引入lamda参数,使得该问题得到解决。在R语言中,MASS包中的函数lm.ridge()可以很方便地完成。它的输入矩阵x始终为n*p维,不管是否包含常数项。

当包含常数项时,该函数对y进行中心化,以y的均值作为因子,对x进行中心化和归一化,以x中各个变量的均值和标准差作为因子。这样对x和y处理后,x和y的均值为0,这使得回归平面经过原点,即常数项为0.因此,虽然指定了包含常数项,它给出的系数lmrige coef里也没有常数项的值。在使用该模型进行预测的时候,也需要首先对x和y进行中心化和归一化,因子是使用训练时候进行中心化和归一化的因子,然后再与系数相乘得到的预测结果,这里需要指出的是,如果建立模型后在命令行窗口直接输入lmridge,也会出现一整套系数,该系数会包含常数项,这个系数和模型给出的系数lmridge coef不一样,因为它是针对没有归一化和中心化数据的,在预测的时候可以直接使用该系数,不需要对数据进行归一化和中心化。

当指定模型不包含常数项时,因为要强调通过原点,该模型假设各个变量的均值为0,因此不对x和y进行中心化。但是对x进行归一化,而且归一化因子也是假设变量均值为0计算出的该变量的标准差。在进行预测的时候,如果使用lmridge$coef的系数,那么需要对数据进行归一化。如果使用lmridge直接给出的系数,只需要直接相乘。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值