主成分回归就是把去除常数项的设计矩阵做了一个正交变换,也就是说新的自变量就是原来自变量的线性组合。是对普通最小二乘法估计的一种改进,其参数估计是有偏估计。
主成分分析是用降维的思想,在实际操作中,正交旋转变换往往会使得在损失的信息很少的情况下,自变量的个数大大减少,较少的自变量往往是我们需要的,因此它的作用也就不言而喻。
上一节我们重点放在了它在检验多重共线性上的应用。这里我们从纯理论的角度出发重新来看它到底有什么好的性质。
我们设原始的自变量有
个。这样的话每一个样本就会有
个参数,分别记为
,那么对应的样本就是
。按照多元回归的惯例,我们假设
。那么这样的话,进行正交变换之后就会使得样本
变成一个新的样本
。数学上写就是下面的意思。
这个时候,如果我们记
,就会有
。
显然,这个变换是有了,但是我们还需要它满足一些性质。首先注意到如果我们设变换的正交矩阵为
,那么实际上就有
,也就是说
。而我们说过,在典则形式中,我们的
取的实际上是
的特征向量的组合(想想为什么),所以这样的话对应的
就是一个对角阵,对角阵上则是特征根。但是上一节我们知道,特征根一般我们不希望它太小。因此很重要的地方就是我们要让样本的方差尽量的大。因为对角阵上的元素实际上也就对应了每一个样本的方差。所以大的话就可以保证特征根比较大。
第二个倒是也比较明显:使得 之间相互无关。这个原因也很简单,因为样本的每一个指标其实也就对应了回归的自变量,而回归的自变量之间存在关系也就是多重共线性的含义。因此为了去除多重共线性,自然需要这个要求。
所以我们自然是需要人工添加一些条件,让这些要求能够得到满足。对于第一个条件,要注意到的是我们的根本是做了一个正交线性变换,所以如果要让样本的方差尽量的大,在实际的情况下就是在主成分中,使得方差最大的几个主成分得以保留,而方差很小的主成分进行抛弃。这样做的原因是正交变换不会改变向量的长度,因此如果依然将自变量全部保留,那么达不到减少自变量的目的。
结合第二个条件的要求,我们就可以得到下面这个约束条件使得
是所有
线性组合中方差最大者,
是所有
,性组合中与
不相关的方差最大者,
是所有
线性组合中与
不相关的方差最大者,以此类推。
另外再加上两个正交矩阵所对应的要求,就是(1)
(2)