主成分分析(PCA)的理解和推导

PCA(主成分分析)是一种数据降维方法,通过变换数据轴来最大化数据的分散程度。推导过程涉及寻找使得数据点在新轴上投影平方和最大的方向,这与数据的协方差矩阵的特征值和特征向量有关。计算实例展示了如何求解特征值和特征向量,以找到主要成分。
摘要由CSDN通过智能技术生成

本文参考了一些日语的课件,所以图片上会出现一些日文,但结合注解看的话问题不是很大


一、主成分分析

1-1 问题导入

主成分分析又称 PCA 算法,即 Principal Component Analysis,本质上是一种改变数据轴的方法,经常被用来降维,以下图为例,PCA算法对原来的两个(x,y)数据轴进行了变换,即相互垂直的红蓝两个数据轴,这么做的目的是尽可能让新的数据轴与数据“贴合”起来,更容易表现出原数据的特征和分布,注意如果新的数据轴数量比原来少,那么就实现了数据降维。

1-2 推导

为了实现降维,我们需要尽可能地将数据轴变换到数据分散程度较大的方向,还是以上图为例,如果要将2维数据降到1维,最好用蓝色的数据轴,因为沿着蓝色数据轴方向数据变化很明显,反之沿着红色数据轴方向数据几乎没有发生变化,这就是所谓的数据分散程度较大的方向,下面我们要考虑如何用数据来具体化分散程度。

如下图所示,将这些样本的平均数据点 x ‾ \overline x x 视为新数据轴的原点,即红蓝数据轴交点位置,以新的数据轴为参考系规定某一单位向量 a = [ a 1 , a 2 ] T a=[a_1, a_2]^T a=[a1,a2]T

任意一个数据点(向量)在 a a a 方向上的投影,或者距离可以表示为 a T ( x − x ‾ ) a^T(x-\overline x) aT(xx),也就是两个向量的內积;该投影的平方可以表示为, ( a T ( x − x ‾ ) ) 2 = a T ( x − x ‾ ) a T ( x − x ‾ ) = ( a T ( x − x ‾ ) ) ( ( x − x ‾ ) T a ) = a T X a (a^T(x-\overline x))^2=a^T(x-\overline x)a^T(x-\overline x)=(a^T(x-\overline x))((x-\overline x)^Ta)=a^TXa (aT(xx))2=aT(xx)aT(xx)=(aT(xx))((xx)Ta)=aTXa

对于所有 n n n个数据点,我们表示出该距离的平均值:
1 n ∑ i = 1 n a T X i a = a T ( 1 n ∑ i = 1 N X i ) a = a T [ 1 n ( x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值