大家好!
上一节我们给主成分回归开了一个头,这一节我们会继续介绍它的有关内容,并且同时会介绍另一种新的回归方法:偏最小二乘回归。这一节的理论性也比较强,主要关注了相关回归的理论上的性质与相关证明。
提供之前的笔记:
- 回归分析|笔记整理(1)——引入,一元线性回归(上)
- 回归分析|笔记整理(2)——一元线性回归(下)
- 回归分析|笔记整理(3)——多元正态分布理论(上)
- 回归分析|笔记整理(4)——多元正态分布理论(中)
- 回归分析|笔记整理(5)——多元正态分布理论(下)
- 回归分析|笔记整理(6)——多元线性回归(上)
- 回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况
- 回归分析|笔记整理(8)——变量选择
- 回归分析|笔记整理(9)——带约束的线性回归,多重共线性
- 回归分析|笔记整理(A)——岭回归,主成分回归(上)
我们开始本节的内容。
目录
- 主成分回归(下)
- 主成分的理论性质
- 主成分回归的理论性质
- 偏最小二乘回归
- 基本思想与算法
- 交叉验证
主成分回归(下)
主成分的理论性质
我希望你没有忘记之前我们的内容,页没有忘记什么是主成分。我这里把主成分回归的表示放在这里。
并且有
那么主成分有什么比较好的性质呢?在介绍它之前,我们首先需要引入下面这个性质。
Proposition 1:
设,并设的特征根为,为对应的标准正交特征向量。那么对于任意的向量都有,
在这之前,我们首先需要介绍矩阵的谱分解。我们知道对于一个特征对
=
那么根据这个结果,如果你要计算它的Rayleigh商(也就是
你看上去感觉挺麻烦的,但是你只看乘式的左边两个,你会发现只要
类似的可以得到
这个命题也是高等代数里的一个很重要的结论。根据矩阵的谱分解,你也不难得到下面的结论
在做了正交变换后,设计矩阵等就会有很好的性质,我们往下看。
Proposition 2:
这是上面性质的直接推论。
Proposition 3:
这也很容易,注意到
当然了,也就是因为这个,所以相当于可以得到
Proposition 4:与的相关系数为
你应该没忘记相关系数的公式
代入即可。
为什么我们需要
事实上,通过上面的解释,我们有理由相信它有和之前的方差贡献率相似的性质。那么我们观察一下。首先根据这个结论我们可以得到
接下来,注意到矩阵的谱分解
Proposition 5:
因此,我们可以实际上使用
最后还有一个很有趣的结论
Proposition 6:
这就是Proposition 4的直接推论。
主成分回归的理论性质
之前我们主要关注的是主成分本身,而之后我们更多会关注回归,也就是回归所对应的一些统计性质。因为这里又会涉及到较多的标记,所以我们会简要重述一下主成分回归的背景。
我们知道原始回归模型为
你应该已经熟悉
简要重新说了一遍,我们开始介绍它的相关理论部分。
Proposition 7:
这里我们注意到上面的公式
因为
(别忘了特征值和对应特征向量是给的)
虽然表达式挺复杂,但是我们关注一下中间的部分。注意到
所以右边再乘一个
接下来的性质一定程度上揭示了它与岭回归的相似性。
Proposition 8:
若,那么
这很简单,根据上面的表达式可以得到
这个不等式的成因是
通过这个性质可以知道,和岭估计类似,主成分估计也是一种压缩估计。同样的,因为这个,所以我们还可以知道下面的性质。
Proposition 9:是有偏估计
最后的性质是有关于均方误差的,和岭回归类似。也奠定了它的应用价值。
Proposition 10:
当设计阵病态时,适当选择可以使得
我们在上一节介绍过
我们注意上一节的公式
(估计值没有这个分量,但是真值当然是有的)
因为设计阵病态的时候,
偏最小二乘回归
基本思想与算法
偏最小二乘回归(PLS)其实解决的是一个比较实际的问题:高维数据预测问题。换句话说就是自变量的个数大于观测值的个数。你可能一开始会觉得不可思议,但是在经济学中这是很常见的。
还是从理论上来说,如果有
一般情况下,我们确实只需要求一个最小二乘回归,估计出
在上面的这个式子中我们可以看到,归根到底它就是一个多元线性函数。给定
可能有的人会想到才说的主成分回归。但是其实我们可以看出来它有一个缺陷,就是它归根到底是选择了自变量中最具有代表性的几个,可是和因变量一点关系都没有啊。而偏最小二乘的基本思路就是——考虑与因变量的相关性情况下的最小二乘算法。在这种情况下,
我们用一元的最小二乘举例子,设模型为
那么这个是一元的,归根到底我们可以理解为这是
来表示
一个最简单的权是
如果我们设
我们再回头看看,这个式子的每一维都是一元情况下的最小二乘。所以实际上应该包含了很多信息了。但是我们也知道最小二乘还是会有一定的残差平方和,也就是说实际上还没有成功的保留好所有的信息。因此我们的想法就是设置这个新的自变量为我们想要的,然后做残差,这样的话残差就不会包括之前的信息,进而就可以继续按照上面的思路进行迭代。
现在,将
(注意是一个数)
残差向量也就自然是
归根到底,偏最小二乘回归的本质也是找到原始的自变量的一个线性组合,满足它与因变量
也有一定的相关性。找到对应的权重之后,让每一个自变量减去这个权重,一定程度上就相当于去除了这一维度的信息。一直做下去,直到自变量个数达到了目标为止。
注意到,回归方程的本质是因变量在自变量所张成的线性空间上的投影,所以我们如果按照投影矩阵的定义来写出
并且容易得到,第
通过上面这一段话,你应该明白应该如何写出这个算法的代码了。不过下面这个结论告诉我们有一个更简单的思路。
Proposition 11:
若,,那么有
(这个结论在数值线性代数中会经常提起,我们不再证明)
所以实际上,如果我们按照这样的方法初始化,然后只需要每一步设置
交叉验证
交叉验证在机器学习中也是非常常用的验证模型好坏的算法。这里我们说的主要是单点交叉验证。也就是说假设我们删除观测值
需要交叉验证的意思是,我们的算法虽然可以做到第
我们在上面说,去掉第
到此,我们算是结束了偏最小二乘回归的内容。
小结
这一节我们主要关注的是两种回归方法——主成分回归和偏最小二乘回归。这两种方法的目标都是为了降维,但是出发点有所不同。实际的操作中,也没有定论中一定有一种方法是比另一种更好的,所以在真正需要对数据做统计分析的时候,还是需要对各种方法都有所了解才行。
——————————————————————————————————————
本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃。
个人微信公众号:cha-diary,你可以通过它来有效的快速的获得最新文章更新的通知。
专栏目录:笔记专栏|目录
想要更多方面的知识分享吗?欢迎关注专栏:一个大学生的日常笔记。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~