Why
和岭回归要解决的问题一样,同样是多重共线性导致的 R 接近奇异使得
What
定 (Yi,xi) 是第i个样本, xi 是p维存在严重多重共线性(其实就是自变量有相关性,极端情况是线性代数里的线性相关)。和岭回归一样,首先做standardized(去中心干掉了截距,scale使得 β 具有可比性;和correlation transformation不同的是后者还需要除个n-1, 目标是为了减少高次项和低次项之间的关联)。再把 xi 变形成内部独立的 zi . 换句话说我们要找到 f1,...fp 使得 zi1,...zip 相互独立,其中 zi1=fT1xi,...,zip=fTpxi 。然后我们再放心的用 Y 对
因为 zi 内部是独立的,做线性回归时我们甚至可以让 Y 分别对
主成分回归(PCR)和PLS一脉传承,只是找 f1,...fp 方法不同。PCR对 XTX 做谱分解找出特征值并利用特征值构建 z 。在此过程中并没有考虑