主成分分析（PCA）原理详解

flag1634

已于 2022-05-07 10:35:14 修改

阅读量1.5k

点赞数

文章标签：机器学习深度学习概率论

于 2022-05-04 21:22:07 首次发布

本文链接：https://blog.csdn.net/qq_41643920/article/details/124575963

版权

PCA是一种降维技术，通过坐标轴旋转最大化样本在新坐标轴上的方差，保留最多信息。中心化步骤确保数据均值为0，方差为1，然后通过求解协方差矩阵的最大值确定旋转方向。最终目标是找到特征值和特征向量，使数据在新坐标轴的投影最大化，降低无关信息。PCA适用于多个维度特征的数据集，常用于数据预处理和简化复杂数据结构。

摘要由CSDN通过智能技术生成

一.背景引入与预备知识

问题引入：假设一组样本只有两个特征(x1,x2)，对样本进行各轴投影，计算对应方差可知数据在水平和垂直方向上的离散度。但是数据在对角方向也明显呈现一种规律，那么如何描述数据呈对角线分布的特点？如果需要用投影信息表示样本分布信息，那应该用X1还是X2轴表示？

鉴于上述原因，我们旋转坐标系来尽可能描述数据潜在的性质，新坐标系如下所示

旋转重构的新坐标系的满足下列性质：

1. 最近重构性：样本到这个超平面的距离都足够近

2. 最大可分性：样本点到这个超平面上的投影能尽可能分开

最重要的一点是，用重构后的坐标系视角观察数据，原本呈正相关的数据不再相关。我们无需再考虑对角方向的数据特性。

预备知识1：关于坐标轴乘以正交矩阵为什么会发生旋转的解答

预备知识2：拉格朗日乘子法用于求解受约束的函数解

上述表达式为求解在g(x)=0的条件下求解f(x)函数的最小值，经拉格朗日乘子法转化问题等价于求解L(x,λ)函数的最小值

预备知识3：协方差矩阵的获取方式

对于一个只有两个特征，且各特征均值为0的样本，他们的协方差矩阵如下方式计算

Var：方差 Cov：协方差

二.PCA核心原理

PCA：一种通过矩阵乘法运算，把原来的矩阵维度减少的降维技术

经过上节讨论我们得知经坐标系旋转变换后，样本在Y2方向上数据投影明显更离散，而Y1方向上的数据投影更加密集。

为了进一步描述问题，我们引入信息论里的内容：信息来源于未知。不同样本的同一维度的值差异特别大，那该维度的信息量就是极大的。也就是说某维度的方差越大，它的信息量越大。这样，我们就可以下定一个结论：样本的信息集中表现于Y2轴，而Y1上的信息较少可以忽略。这样我们通过舍弃Y1轴，将Y2轴数据投影保留即可实现数据降维。

当数据不止两个维度特征时我们需要一个更加明确的降维目标，这里先给出相应答案

三.PCA实现步骤

中心化步骤作用：将x1，x2轴直角顶点平移到Y1，Y2轴直角顶点

投影变换的作用：将经过中心化后的x1，x2轴旋转得到Y1,Y2轴

目标函数如上设定的原因

1.第一步中心化我们得到了一个在各特征上均值为0，方差为1的样本数据

2. $U^{T}X$ 可视为旋转后的Y轴。由预备知识3知，目标函数为求解Y轴的协方差矩阵最大值。在理想情况下不同特征实际不相关协方差为0，协方差矩阵对角线上实际是各特征的方差。求解最大值即尽可能保留投影轴上的信息，减少像原坐标系上未被利用的数据正相关信息。我们希望各特征方差尽可能越大，以便我们选择方差最大的几个特征值。