参考:
https://blog.csdn.net/weixin_43374551/article/details/83688913
lasso https://zhuanlan.zhihu.com/p/46999826
相关性是CORR(X,Y)
相关性CORR(X,Y)=COV(X,Y)/(X的标准差*Y的标准差)
代表两变量X和Y的线性相关程度。若CORR(X,Y)=0,则说明X和Y独立。
若CORR(X,Y)=+(-)1,则X和Y几乎处处线性关系。线性相关,就是存在a,b,使得Y=aX+b。
CORR(X,Y)这个数,与COV相比,最大的区别是不含有单位。CORR这个数,因为是CORR(X,Y)=COV(X,Y)/(X的标准差Y的标准差) ,所以在除以X的标准差Y的标准差时候已经把X和Y的单位消掉了,所以,他就是无单位化的概念。
若CORR(X,Y)不等于+(-)1和0,那就说明X和Y在某个地方存在线性关系。因为X和Y是随机变量,所以可以在定义域上取任何值,所以,当CORR不等于1时候,X和Y就会在某些地方某些时间和空间有线性关系。
motivation
构建模型初期,我们为了将所有的因素都考虑到,我们会尽可能的引入所有可能的潜在变量,因此也导致了一些问题:
1)协变量的数量太多,以至于多于样本的数量
2)某些变量之间存在共线性,例如月工资和年薪
本节我们专注于第二点:共线性
1)我们知道 ∣ X T X ∣ ≠ 0 |X^TX|\neq0 ∣XTX∣=0时;或者 X X X的所有列都相互独立(判断方法见下), ( X T X ) − 1 (X^TX)^{-1} (XTX)−1才存在,即 β ^ \hat{\beta} β^可以求解
所以当出现多重共线性时,无法进行拟合
2)当模型出现 近乎 多重共线性的情况时,即 ∣ X T X ∣ ≈ 0 |X^TX|\approx0 ∣XTX∣≈0:
(1) ∣ X T X ∣ |X^TX| ∣XTX∣的值非常小,也就导致了其微小的变动会引起倒数的巨大变化, β ^ \hat{\beta} β^变化巨大,另一方面如果足够小,计算机将无法计算(精度大幅下降,甚至直接视为inf)
(2) ( X T X ) − 1 (X^TX)^{-1} (XTX)−1将变得很大, σ 2 ( X T X ) − 1 \sigma^2(X^TX)^{-1} σ2(XTX)−1即 β ^ \hat{\beta} β^方差将变得非常大,拟合也就失去了意义
注:共线性是列向量之间的情况,列向量是协变量之间,行向量是样本之间
判断列向量之间独立:
若:
C 0 × C o l 0 + C 1 × C o l 1 + C 2 × C o l 2 . . . C p × C o l p = 0 C_0\times Col_0+C_1\times Col_1+C_2\times Col_2...C_p\times Col_p=0 C0×Col0+C1×Col1+C2×Col2...Cp×Colp=0 (均为向量)
当且仅当 C 0 = C 1 = C 2 = . . . = C p = 0 C_0=C_1=C_2=...=C_p=0 C0=C1=C2=...=Cp=0时成立
则:
矩阵的列之间相互独立
解释:重点是当且仅当:若存在共线性,例如两个相反等长的向量,则存在 C i = C j = 1 C_i=C_j=1 Ci=Cj=1使得等式依然成立
以上种种原因,引出解决办法,即本节核心:岭回归
What is that
对岭回归的推导见下面:岭估计
对于线性回归模型 Y = X β + e Y = Xβ + e Y=Xβ+e, 对其 β \beta β岭估计定义为:
β ^ r i d g e = ( X T X + λ I ) − 1 X T Y \hat{β}_{ridge} = (X^TX+λI)^{−1}X^TY β^ridge=(XTX+λI)−1XTY
当λ = 0时, β ^ r i d g e = β ^ O L S \hat{β}_{ridge} = \hat{β}_{OLS} β^ridge=β^