Ridge regression

狗狗人

已于 2023-03-16 14:23:55 修改

阅读量1k

点赞数 2

分类专栏：遗产文章标签：统计学线性代数

于 2021-12-02 16:56:05 首次发布

本文链接：https://blog.csdn.net/dogman_/article/details/121520339

版权

岭回归是一种解决线性回归中多重共线性问题的方法。通过在 XTX 矩阵上添加 λI 项，避免行列式接近0导致的计算问题。λ的选择可以通过 GCV（广义交叉验证）来确定，以平衡偏差和方差。岭回归与 Lasso 回归的主要区别在于惩罚项，Lasso 能自动选择重要变量。

摘要由CSDN通过智能技术生成

参考：
https://blog.csdn.net/weixin_43374551/article/details/83688913
lasso https://zhuanlan.zhihu.com/p/46999826

相关性是CORR(X,Y)
相关性CORR(X,Y)=COV(X,Y)/（X的标准差*Y的标准差）

代表两变量X和Y的线性相关程度。若CORR(X,Y)=0，则说明X和Y独立。
若CORR(X,Y)=+（-）1，则X和Y几乎处处线性关系。线性相关，就是存在a，b，使得Y=aX+b。
CORR（X,Y）这个数，与COV相比，最大的区别是不含有单位。CORR这个数，因为是CORR(X,Y)=COV(X,Y)/（X的标准差Y的标准差），所以在除以X的标准差Y的标准差时候已经把X和Y的单位消掉了，所以，他就是无单位化的概念。
若CORR(X,Y)不等于+（-）1和0，那就说明X和Y在某个地方存在线性关系。因为X和Y是随机变量，所以可以在定义域上取任何值，所以，当CORR不等于1时候，X和Y就会在某些地方某些时间和空间有线性关系。

motivation

构建模型初期，我们为了将所有的因素都考虑到，我们会尽可能的引入所有可能的潜在变量，因此也导致了一些问题：

1）协变量的数量太多，以至于多于样本的数量
2）某些变量之间存在共线性，例如月工资和年薪

本节我们专注于第二点：共线性

1）我们知道 $|X^TX|\neq0$ 时；或者 $X$ 的所有列都相互独立(判断方法见下)， $X^TX)^{-1}$ 才存在，即 $\hat{\beta}$ 可以求解
所以当出现多重共线性时，无法进行拟合

2）当模型出现近乎多重共线性的情况时，即 $|X^TX|\approx0$ :
(1) $X^TX|$ 的值非常小，也就导致了其微小的变动会引起倒数的巨大变化， $\hat{\beta}$ 变化巨大，另一方面如果足够小，计算机将无法计算（精度大幅下降，甚至直接视为inf）
(2) $X^TX)^{-1}$ 将变得很大， $\sigma^2(X^TX)^{-1}$ 即 $\hat{\beta}$ 方差将变得非常大，拟合也就失去了意义