偏最小二乘回归分析_回归分析|笔记整理(A)——岭回归,主成分回归(上)...

ae39cc082084ce34caeff90b8c6b99dd.png

大家好!

如果你看过之前的《抽象代数》的笔记,你肯定就不会陌生了。这里的A就是10的意思

这一节我们会关注岭回归主成分回归的内容(当然主成分回归只是引入一下)。它们是上一节多重共线性的自然延伸。有的人称岭回归为“近代统计的开端”,也算是对它的一个很高的赞誉了。

另外要注意的是这一节的一些记号会进一步的简化,这是为了公式能够少占点地方……

提供之前的笔记:

  • 回归分析|笔记整理(1)——引入,一元线性回归(上)
  • 回归分析|笔记整理(2)——一元线性回归(下)
  • 回归分析|笔记整理(3)——多元正态分布理论(上)
  • 回归分析|笔记整理(4)——多元正态分布理论(中)
  • 回归分析|笔记整理(5)——多元正态分布理论(下)
  • 回归分析|笔记整理(6)——多元线性回归(上)
  • 回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况
  • 回归分析|笔记整理(8)——变量选择
  • 回归分析|笔记整理(9)——带约束的线性回归,多重共线性

我们开始本节的内容。

目录

  • 岭回归
    • 引入
    • 岭迹分析
    • 选择岭参数
      • 主观法
      • 方差扩大因子法
      • 特征根判定法
    • 用岭回归做变量选择
    • 岭回归的理论性质
  • 主成分回归(上)
    • 引入

岭回归

引入

在上一节中,我们介绍过多重共线性的问题。其本质问题在于

。因此岭回归的本质就是在这个矩阵上做了手脚,使得多重共线性的问题得到一定的缓解。比方说针对问题
,如果我们人工给定10个值和10个满足正态分布的
的值,就会对应有10个
的值。数据见下面的表。

c85eaa83ceabe27b9a36bbcccd49b680.png
图来自PPT

如果你按照这个数据做线性回归,理论来说就应该和原模型一样,至少不能差太多。但是事与愿违。最后的回归结果和原始的结果差距非常大,这是因为

之间的线性相关性太强了,因此产生了多重共线性。

b0bf6ffb765b80b238ebccea462bc216.png
两个模型存在巨大差距

那么岭回归怎么解决的呢?我们从这个定义来看就好。

Definition 1: Ridge Regression
为回归参数的岭回归估计,其中
为岭参数。

直观上,如果

,那么就意味着特征值的积太小了。现在我给它加
个单位阵,就意味着每一个特征值都加上了一个正数
,因此就可以解决行列式几乎为0的问题。这样的话再去回归,多重共线性的影响就会减少很多。

实际情况下我们会考虑先对数据中心标准化,再进行岭回归的处理。

岭迹分析

我们可以看出岭回归的结果是取决于参数

的,所以如果我们按照参数
为横坐标画出
的话,得到的曲线就称为
岭迹

因为岭迹分析是非常主观的,意味着每个人会有不同的理解。所以我这里只是把各种情况按照Prof的理解放在这里,大家不需要将它视为一个标准的答案。

下面是各个图及其对应的岭迹分析

73b125df55c2c6db19266684140b5e8f.png

可以看出它在没有做岭回归的时候是一个很大的值。但是随着

的变化,参数值却变得很小,甚至出现了符号的变换,这就体现了最小二乘回归的
不稳定性。另外看最后它是趋于0的,因此可以认为这个变量对回归 不起重要作用

1ea6a4bcb18b0cd463c175ec98d5c000.png

可以看出,刚开始是正的,但是后来骤然降为负值。而且虽然后来有所抬升,但是与0还是有一些距离。因此如果我们没有岭回归,那么它应该对

是正向的作用。但是在岭回归的角度来看,它应该是对
有负向的作用

a92de8ac4549133e831fc611715e8f99.png

这个……很有艺术感对不对?但是实际上它相当于告诉我们最小二乘估计可能并没有反映实际情况,因为整个岭迹没有趋于一个稳定的状态。

843bcb1ca7aa91ad3fdee94f7cfe9bf9.png

大体上来看,两个回归系数就是往相反的方向在跑。大致两个参数的和是相同的。这个时候一般认为它们存在多重共线性。保留一个变量就好。

5cf4fecdd1ac4b055b7ea0b07ff446b9.png

看似和第一个好像差不多,不过这个岭迹一般就是我们想要的岭迹了。因为它有一个稳定的趋势,而且也并没有发生符号的变换。所以在这个时候,就认为最小二乘回归反映了真实情况,可以使用了。

选择岭参数

主观法

可能很多人要问了,我这个岭迹看出来了,也知道什么情况了。但是我总是要选择一个岭参数,不然的话我这个回归的系数就得不到,那肯定不行。而多重共线性的最大隐患就是参数的不稳定性。所以我们选择岭参数的原则也很简单:让回归系数能够稳定。而一般来说,我们用均方误差

来去衡量稳定性,也就是说选择
最小的那个参数
就可以了。

不要高兴得太早,注意到

因此这个值是依赖于未知参数

的。而现在理论上并没有找到这个值与这两个参数的函数关系,所以最小值理论上无法求得,只能退而求其次,考虑主观的一些方法。

一般来说我们有这么几个原则:

系数岭估计基本稳定。最小二乘回归下符号不合理的回归系数,在岭估计的意义下符号变得合理。回归系数合乎经济意义。残差平方和不会增大太多。

方差扩大因子法

如果说上面的方法是“靠眼睛看”的话,这个方法就稍微好一点,没有“太主观”,虽然它也是一个主观的方法。

我们在上一节说过,如果方差扩大因子大于

就认为模型存在严重多重共线性。那么岭回归既然是为了解决多重共线性的,自然只需要让它的协方差阵中的方差扩大因子小于
即可。而

其中

。取出这个矩阵的所有对角元,显然
不断增大的时候,对应的
的对角元就会减小。所以我们选择
使得所有的方差扩大因子
即可。

还有一种方法是残差平方和法,就是选择一个

,使得
,寻找使得上面式子成立的最大的
即可,这个大家知道就好。

用岭回归做变量选择

显然岭回归也可以看出变量是否重要的。一般来说遵循下面几个原则进行变量选择。

首先是要注意数据是已经中心标准化的。所以比较岭回归系数的大小,就不会出现量纲所带来的数值误差(对于同一个长度,用米和用毫米做计量单位,所得到的数值肯定会差得很大,但是标准化后它们都一样了)。因此这样的话,我们需要删除标准化后岭回归系数稳定而绝对值很小的自变量。这是因为当系数

的时候,在典则形式下就意味着它和常数项的作用无异(见第9节的最后),所以自然可以考虑把它从回归变量中进行剔除。

第二是要注意,要去掉岭回归系数不稳定,或者震动着趋于0的自变量。第二部分很好理解,但是不稳定怎么估计呢?一般是需要根据去掉某些变量后重新岭回归分析的效果来确定。

实际上,岭回归方法是具有很强的主观性的,因此实际的研究中,可能不同的人就会有不同的决定策略。这倒是和机器学习目前的情况比较相似。

岭回归的理论性质

与之前的笔记不太一样的是我们这里把它的理论部分放到了最后,这样需要用的人可以继续往后看,而不需要用的人就可以点赞,然后关闭页面了(逃

岭回归能够有自己的一席之地,必然是因为它具有一些较好的性质。因为岭回归的研究主题是多重共线性,它是与

的特征根有很大的联系的。因此我们之后的证明中,会考虑使用
典则形式

对于一个回归模型

,我们知道它可以写成

(为了表示的方便,我们把去掉常数项的设计矩阵仍然记为

)并且
。假设设计矩阵
也已经标准化,
,那么容易知道
。这些我们在上一节的最后都有提过,它们都是合理的。

我们再回忆一下典则形式。设

的特征根,而
为对应的标准正交特征向量,那么如果我们记
,那么就会有

其中

改为典则形式之后,它就变成了一个全新的模型。在使用这个模型做回归之后,再做一步正交变换就可以变回到原来的模型,因此我们只需要研究它即可。

根据上面的知识我们知道,

的最小二乘估计仍然是
,并且
(注意这里的
是回归系数,和上面的
功能正好不同)的最小二乘估计是

那么这个时候,显然它对应的岭回归估计就是

我们注意到

,用
代入一下可以得到

这是一些有用的结论,我们先放在这里。

需要注意的是我们在之前说过,研究岭回归的稳定性需要用到均方误差

。它的多元情况我们之前并没有涉及过,因此我们这里需要研究一下它的表示。

注意到

(你应该已经很熟悉这个了)
(第一项注意先取trace再将trace与期望的顺序交换)

这说明多元情况下的

就是每一元的
单纯加起来得到的结果。

还需要注意的是

这也是一个很重要的前置结论。现在我们来逐一介绍岭回归意义下的一些性质。

Proposition 1:
,其中

这很简单,我们注意一下

即可。

Proposition 2:
的有偏估计。

这也很容易,注意到

,因此如果
就是有偏。但是
,所以只有
的时候是无偏的,也就说明了所有的岭回归估计都是有偏估计。
Proposition 3:
对于任意的
,总会有

这里的

范数,我们这里用的比较多的是 2-范数,也就是欧氏距离。

显然这里我们是需要使用典则形式的估计的。注意到

之间只差一个正交矩阵,所以根据数值分析的知识可以知道
。但是注意到

而注意到

是充满特征值的对角阵,所以实际上对于矩阵
,它的每一个对角元都是
的形式,那么这样的话整个矩阵的每一个元素都肯定是小于1的。因此有

结合到一起就得到了我们的结论。

这个结论是符合我们的预期的,你可以发现在

越来越大的时候,回归系数最终都会趋于0的。而且事实上,因为

所以我们实际上可以得到

(通过第一个式子加上

即可得到它其实就是方差的求和,同时这里的
是指我们实际上是将这个向量的每一个元素提出来求和,这里只是偷懒简写了)

所以如果出现多重共线性,就会使得特征根都很小,因此均方误差就会很大。而这个定理也一定程度上说明了通过岭回归可以压缩回归系数的长度,也就相当于使得特征值不那么小,自然也就缓解了多重共线性。

Proposition 4:
存在
,使得

我们在之前说过均方误差的正交变换不变性,所以实际上只需要考虑证明式子

根据我们上面推导出的

的公式,我们需要知道的是
还有
,所以只需要计算这两个就好,而注意到
,所以我们可以得到

需要注意到的是

相当于把每一个数据都取了一个均值,差别就在一个作为分母的样本数。但是我们之前说过这个数据是做过中心标准化的,因此这一项就是0,所以最后可以得到

那么这样的话就会有

注意矩阵是对角阵,它的每一个对角元都是

,有了这些,我们根据均方误差的性质进行计算,可以得到

这是一个关于参数

的函数,既然要说明存在
,那自然肯定要研究一下
的关系,所以我们直接考虑设这个函数为
,对
求导,可以得到

用分析学的角度来看,首先在

的时候,这一个式子是负的,并且在一个充分小的区域内都有
,这么说的原因是这是一个连续函数,并且它又是严格负的,因此一定存在一个邻域使得这个邻域内导数值都是负的。那么显然这就已经足够说明了
,因此也就证明了结论。

这个结论是很重要的,也是岭回归的主要的应用依据。

主成分回归(上)

引入

主成分回归我们已经在上一节中简单介绍过,典则形式的产生就和主成分回归有很大的关系。归根到底主成分回归就是把去除常数项的设计矩阵做了一个正交变换,也就是说新的自变量就是原来自变量的线性组合。在实际操作中,正交旋转变换往往会使得在损失的信息很少的情况下,自变量的个数大大减少,较少的自变量往往是我们需要的,因此它的作用也就不言而喻。

上一节我们重点放在了它在检验多重共线性上的应用。这里我们从纯理论的角度出发重新来看它到底有什么好的性质。

我们设原始的自变量有

个。这样的话每一个样本就会有
个参数,分别记为
,那么对应的样本就是
。按照多元回归的惯例,我们假设
。那么这样的话,进行正交变换之后就会使得样本
变成一个新的样本
。数学上写就是下面的意思。

这个时候,如果我们记

,就会有

显然,这个变换是有了,但是我们还需要它满足一些性质。首先注意到如果我们设变换的正交矩阵为

,那么实际上就有
,也就是说
。而我们说过,在典则形式中,我们的
取的实际上是
的特征向量的组合(想想为什么),所以这样的话对应的
就是一个对角阵,对角阵上则是特征根。但是上一节我们知道,特征根一般我们不希望它太小。因此很重要的地方就是我们
要让样本的方差尽量的大。因为对角阵上的元素实际上也就对应了每一个样本的方差。所以大的话就可以保证特征根比较大。

第二个倒是也比较明显:使得

之间相互无关
。这个原因也很简单,因为样本的每一个指标其实也就对应了回归的自变量,而回归的自变量之间存在关系也就是多重共线性的含义。因此为了去除多重共线性,自然需要这个要求。

所以我们自然是需要人工添加一些条件,让这些要求能够得到满足。对于第一个条件,要注意到的是我们的根本是做了一个正交线性变换,所以如果要让样本的方差尽量的大,在实际的情况下就是在主成分中,使得方差最大的几个主成分得以保留,而方差很小的主成分进行抛弃。这样做的原因是正交变换不会改变向量的长度,因此如果依然将自变量全部保留,那么达不到减少自变量的目的。

结合第二个条件的要求,我们就可以得到下面这个约束条件

使得
是所有
线性组合中方差最大者,
是所有
线性组合中与
不相关的方差最大者,
是所有
线性组合中与
不相关的方差最大者,以此类推。

另外再加上两个正交矩阵所对应的要求,就是

(1)

(2)

关于主成分的其余内容,我们放到下一节再说。

小结

这一节我们主要关注的是岭回归的内容,岭回归的简单粗暴的思路让它得到了自己发挥的舞台。但是它的应用过于主观,所以很多时候使用岭回归进行分析得到的结果往往是因人而异。同样的,因为多重共线性的普遍性,统计中还有很多其余的方法用来解决它。剩下的方法我们会在之后的笔记中慢慢铺垫。

——————————————————————————————————————

73d3258deccb9ce1a42bbcdd17ff5006.png

本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃

个人微信公众号:cha-diary,你可以通过它来有效的快速的获得最新文章更新的通知。

专栏目录:笔记专栏|目录

想要更多方面的知识分享吗?欢迎关注专栏:一个大学生的日常笔记。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值