大家好!
如果你看过之前的《抽象代数》的笔记,你肯定就不会陌生了。这里的A就是10的意思。
这一节我们会关注岭回归和主成分回归的内容(当然主成分回归只是引入一下)。它们是上一节多重共线性的自然延伸。有的人称岭回归为“近代统计的开端”,也算是对它的一个很高的赞誉了。
另外要注意的是这一节的一些记号会进一步的简化,这是为了公式能够少占点地方……
提供之前的笔记:
- 回归分析|笔记整理(1)——引入,一元线性回归(上)
- 回归分析|笔记整理(2)——一元线性回归(下)
- 回归分析|笔记整理(3)——多元正态分布理论(上)
- 回归分析|笔记整理(4)——多元正态分布理论(中)
- 回归分析|笔记整理(5)——多元正态分布理论(下)
- 回归分析|笔记整理(6)——多元线性回归(上)
- 回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况
- 回归分析|笔记整理(8)——变量选择
- 回归分析|笔记整理(9)——带约束的线性回归,多重共线性
我们开始本节的内容。
目录
- 岭回归
- 引入
- 岭迹分析
- 选择岭参数
- 主观法
- 方差扩大因子法
- 特征根判定法
- 用岭回归做变量选择
- 岭回归的理论性质
- 主成分回归(上)
- 引入
岭回归
引入
在上一节中,我们介绍过多重共线性的问题。其本质问题在于
如果你按照这个数据做线性回归,理论来说就应该和原模型一样,至少不能差太多。但是事与愿违。最后的回归结果和原始的结果差距非常大,这是因为
那么岭回归怎么解决的呢?我们从这个定义来看就好。
Definition 1: Ridge Regression
称为回归参数的岭回归估计,其中为岭参数。
直观上,如果
实际情况下我们会考虑先对数据中心标准化,再进行岭回归的处理。
岭迹分析
我们可以看出岭回归的结果是取决于参数
因为岭迹分析是非常主观的,意味着每个人会有不同的理解。所以我这里只是把各种情况按照Prof的理解放在这里,大家不需要将它视为一个标准的答案。
下面是各个图及其对应的岭迹分析
可以看出它在没有做岭回归的时候是一个很大的值。但是随着
可以看出,刚开始是正的,但是后来骤然降为负值。而且虽然后来有所抬升,但是与0还是有一些距离。因此如果我们没有岭回归,那么它应该对
这个……很有艺术感对不对?但是实际上它相当于告诉我们最小二乘估计可能并没有反映实际情况,因为整个岭迹没有趋于一个稳定的状态。
大体上来看,两个回归系数就是往相反的方向在跑。大致两个参数的和是相同的。这个时候一般认为它们存在多重共线性。保留一个变量就好。
看似和第一个好像差不多,不过这个岭迹一般就是我们想要的岭迹了。因为它有一个稳定的趋势,而且也并没有发生符号的变换。所以在这个时候,就认为最小二乘回归反映了真实情况,可以使用了。
选择岭参数
主观法
可能很多人要问了,我这个岭迹看出来了,也知道什么情况了。但是我总是要选择一个岭参数,不然的话我这个回归的系数就得不到,那肯定不行。而多重共线性的最大隐患就是参数的不稳定性。所以我们选择岭参数的原则也很简单:让回归系数能够稳定。而一般来说,我们用均方误差
不要高兴得太早,注意到
因此这个值是依赖于未知参数
一般来说我们有这么几个原则:
系数岭估计基本稳定。最小二乘回归下符号不合理的回归系数,在岭估计的意义下符号变得合理。回归系数合乎经济意义。残差平方和不会增大太多。
方差扩大因子法
如果说上面的方法是“靠眼睛看”的话,这个方法就稍微好一点,没有“太主观”,虽然它也是一个主观的方法。
我们在上一节说过,如果方差扩大因子大于
其中
还有一种方法是残差平方和法,就是选择一个
用岭回归做变量选择
显然岭回归也可以看出变量是否重要的。一般来说遵循下面几个原则进行变量选择。
首先是要注意数据是已经中心标准化的。所以比较岭回归系数的大小,就不会出现量纲所带来的数值误差(对于同一个长度,用米和用毫米做计量单位,所得到的数值肯定会差得很大,但是标准化后它们都一样了)。因此这样的话,我们需要删除标准化后岭回归系数稳定而绝对值很小的自变量。这是因为当系数
第二是要注意,要去掉岭回归系数不稳定,或者震动着趋于0的自变量。第二部分很好理解,但是不稳定怎么估计呢?一般是需要根据去掉某些变量后重新岭回归分析的效果来确定。
实际上,岭回归方法是具有很强的主观性的,因此实际的研究中,可能不同的人就会有不同的决定策略。这倒是和机器学习目前的情况比较相似。
岭回归的理论性质
与之前的笔记不太一样的是我们这里把它的理论部分放到了最后,这样需要用的人可以继续往后看,而不需要用的人就可以点赞,然后关闭页面了(逃
岭回归能够有自己的一席之地,必然是因为它具有一些较好的性质。因为岭回归的研究主题是多重共线性,它是与
对于一个回归模型
(为了表示的方便,我们把去掉常数项的设计矩阵仍然记为
我们再回忆一下典则形式。设
其中
改为典则形式之后,它就变成了一个全新的模型。在使用这个模型做回归之后,再做一步正交变换就可以变回到原来的模型,因此我们只需要研究它即可。
根据上面的知识我们知道,
那么这个时候,显然它对应的岭回归估计就是
我们注意到
这是一些有用的结论,我们先放在这里。
需要注意的是我们在之前说过,研究岭回归的稳定性需要用到均方误差
注意到
(你应该已经很熟悉这个了)(第一项注意先取trace再将trace与期望的顺序交换)
这说明多元情况下的
还需要注意的是
这也是一个很重要的前置结论。现在我们来逐一介绍岭回归意义下的一些性质。
Proposition 1:,其中
这很简单,我们注意一下
即可。
Proposition 2:是的有偏估计。
这也很容易,注意到
Proposition 3:
对于任意的,总会有
这里的
显然这里我们是需要使用典则形式的估计的。注意到
而注意到
结合到一起就得到了我们的结论。
这个结论是符合我们的预期的,你可以发现在
所以我们实际上可以得到
(通过第一个式子加上
所以如果出现多重共线性,就会使得特征根都很小,因此均方误差就会很大。而这个定理也一定程度上说明了通过岭回归可以压缩回归系数的长度,也就相当于使得特征值不那么小,自然也就缓解了多重共线性。
Proposition 4:
存在,使得
我们在之前说过均方误差的正交变换不变性,所以实际上只需要考虑证明式子
根据我们上面推导出的
需要注意到的是
那么这样的话就会有
注意矩阵是对角阵,它的每一个对角元都是
这是一个关于参数
用分析学的角度来看,首先在
这个结论是很重要的,也是岭回归的主要的应用依据。
主成分回归(上)
引入
主成分回归我们已经在上一节中简单介绍过,典则形式的产生就和主成分回归有很大的关系。归根到底主成分回归就是把去除常数项的设计矩阵做了一个正交变换,也就是说新的自变量就是原来自变量的线性组合。在实际操作中,正交旋转变换往往会使得在损失的信息很少的情况下,自变量的个数大大减少,较少的自变量往往是我们需要的,因此它的作用也就不言而喻。
上一节我们重点放在了它在检验多重共线性上的应用。这里我们从纯理论的角度出发重新来看它到底有什么好的性质。
我们设原始的自变量有
这个时候,如果我们记
显然,这个变换是有了,但是我们还需要它满足一些性质。首先注意到如果我们设变换的正交矩阵为
第二个倒是也比较明显:使得
所以我们自然是需要人工添加一些条件,让这些要求能够得到满足。对于第一个条件,要注意到的是我们的根本是做了一个正交线性变换,所以如果要让样本的方差尽量的大,在实际的情况下就是在主成分中,使得方差最大的几个主成分得以保留,而方差很小的主成分进行抛弃。这样做的原因是正交变换不会改变向量的长度,因此如果依然将自变量全部保留,那么达不到减少自变量的目的。
结合第二个条件的要求,我们就可以得到下面这个约束条件
使得是所有线性组合中方差最大者,是所有线性组合中与不相关的方差最大者,是所有线性组合中与不相关的方差最大者,以此类推。
另外再加上两个正交矩阵所对应的要求,就是
(1)
(2)
关于主成分的其余内容,我们放到下一节再说。
小结
这一节我们主要关注的是岭回归的内容,岭回归的简单粗暴的思路让它得到了自己发挥的舞台。但是它的应用过于主观,所以很多时候使用岭回归进行分析得到的结果往往是因人而异。同样的,因为多重共线性的普遍性,统计中还有很多其余的方法用来解决它。剩下的方法我们会在之后的笔记中慢慢铺垫。
——————————————————————————————————————
本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃。
个人微信公众号:cha-diary,你可以通过它来有效的快速的获得最新文章更新的通知。
专栏目录:笔记专栏|目录
想要更多方面的知识分享吗?欢迎关注专栏:一个大学生的日常笔记。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~