Ridge regression

岭回归是一种解决线性回归中多重共线性问题的方法。通过在 XTX 矩阵上添加 λI 项,避免行列式接近0导致的计算问题。λ的选择可以通过 GCV(广义交叉验证)来确定,以平衡偏差和方差。岭回归与 Lasso 回归的主要区别在于惩罚项,Lasso 能自动选择重要变量。
摘要由CSDN通过智能技术生成

参考:
https://blog.csdn.net/weixin_43374551/article/details/83688913
lasso https://zhuanlan.zhihu.com/p/46999826

相关性是CORR(X,Y)
相关性CORR(X,Y)=COV(X,Y)/(X的标准差*Y的标准差)

代表两变量X和Y的线性相关程度。若CORR(X,Y)=0,则说明X和Y独立。
若CORR(X,Y)=+(-)1,则X和Y几乎处处线性关系。线性相关,就是存在a,b,使得Y=aX+b。
CORR(X,Y)这个数,与COV相比,最大的区别是不含有单位。CORR这个数,因为是CORR(X,Y)=COV(X,Y)/(X的标准差Y的标准差) ,所以在除以X的标准差Y的标准差时候已经把X和Y的单位消掉了,所以,他就是无单位化的概念。
若CORR(X,Y)不等于+(-)1和0,那就说明X和Y在某个地方存在线性关系。因为X和Y是随机变量,所以可以在定义域上取任何值,所以,当CORR不等于1时候,X和Y就会在某些地方某些时间和空间有线性关系。

motivation

构建模型初期,我们为了将所有的因素都考虑到,我们会尽可能的引入所有可能的潜在变量,因此也导致了一些问题:

1)协变量的数量太多,以至于多于样本的数量
2)某些变量之间存在共线性,例如月工资和年薪


本节我们专注于第二点:共线性

1)我们知道 ∣ X T X ∣ ≠ 0 |X^TX|\neq0 XTX=0时;或者 X X X的所有列都相互独立(判断方法见下), ( X T X ) − 1 (X^TX)^{-1} (XTX)1才存在,即 β ^ \hat{\beta} β^可以求解
所以当出现多重共线性时,无法进行拟合

2)当模型出现 近乎 多重共线性的情况时,即 ∣ X T X ∣ ≈ 0 |X^TX|\approx0 XTX0:
 (1) ∣ X T X ∣ |X^TX| XTX的值非常小,也就导致了其微小的变动会引起倒数的巨大变化, β ^ \hat{\beta} β^变化巨大,另一方面如果足够小,计算机将无法计算(精度大幅下降,甚至直接视为inf)
 (2) ( X T X ) − 1 (X^TX)^{-1} (XTX)1将变得很大, σ 2 ( X T X ) − 1 \sigma^2(X^TX)^{-1} σ2(XTX)1 β ^ \hat{\beta} β^方差将变得非常大,拟合也就失去了意义

注:共线性是列向量之间的情况,列向量是协变量之间,行向量是样本之间

判断列向量之间独立:
若:
C 0 × C o l 0 + C 1 × C o l 1 + C 2 × C o l 2 . . . C p × C o l p = 0 C_0\times Col_0+C_1\times Col_1+C_2\times Col_2...C_p\times Col_p=0 C0×Col0+C1×Col1+C2×Col2...Cp×Colp=0 (均为向量)
当且仅当 C 0 = C 1 = C 2 = . . . = C p = 0 C_0=C_1=C_2=...=C_p=0 C0=C1=C2=...=Cp=0时成立
则:
矩阵的列之间相互独立

解释:重点是当且仅当:若存在共线性,例如两个相反等长的向量,则存在 C i = C j = 1 C_i=C_j=1 Ci=Cj=1使得等式依然成立

以上种种原因,引出解决办法,即本节核心:岭回归



What is that

对岭回归的推导见下面:岭估计

对于线性回归模型 Y = X β + e Y = Xβ + e Y=+e, 对其 β \beta β岭估计定义为:
β ^ r i d g e = ( X T X + λ I ) − 1 X T Y \hat{β}_{ridge} = (X^TX+λI)^{−1}X^TY β^ridge=(XTX+λI)1XTY

当λ = 0时, β ^ r i d g e = β ^ O L S \hat{β}_{ridge} = \hat{β}_{OLS} β^ridge=β^

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值