【一起入门MachineLearning】中科院机器学习第*课-PCA主成分分析

专栏介绍:本栏目为 “2021秋季中国科学院大学周晓飞老师的机器学习” 课程记录,不仅仅是课程笔记噢~ 如果感兴趣的话,就和我一起入门Machine Learning吧🥰

如何理解PCA

在这里插入图片描述

PCA是一种降维方法,我们来看下面这个例子:

现在有假设4个2维度样本,每一维度都表示一个属性,比如说(身高,体重)
(4,2)(2,1)(5,6)(1,2)

我们可以得到一个样本矩阵,并将样本矩阵按照行表示:

在这里插入图片描述
现在我们要来思考这样一个问题:
有必要用一个两行四列的数据来描述这些样本吗?

  • 其实这个问题我们知道答案的,在学习线性代数时,我们就知道了有极大线性无关组,有相似等等,简而言之就是样本矩阵X中的一些向量是可以由极大线性无关组表示的,我们可以通过矩阵变换可以得到基向量,基向量的数目小于原本矩阵中的向量数目,那这不就是降维吗?经过降维之后样本矩阵X被表示为了Y,X与Y的关系是Y=PX,是不是隐隐约约感觉到了降维与矩阵变换(特征值,特征向量…)有关呢?

继续思考这样一个问题:

在数据降维之后,如何才能尽可能多地保留样本信息?

  • 首先,留下来的样本一定要尽可能松散,彼此有足够大的区分度,也就是方差要尽可能大。其次,留下来的样本一定要有存在的意义,不可以被别的向量表示,也就是彼此不相关,进一步可以推出协方差为0

  • 总结一下:原始样本矩阵X,降维之后的样本矩阵Y,Y=PX,且Y中的各个样本方差要尽可能大,协方差要尽可能为0。

那PCA不就是相似对角化吗?上来直接求特征值特征向量不就完事儿了吗? 但是事实上好像不是这样的😞

PCA求解步骤

  1. 将原始数据按列组成n行m列矩阵X
  2. 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
  3. 求出协方差矩阵:m为列数
    在这里插入图片描述
  4. 求出协方差矩阵的特征值及对应的特征向量
  5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
  6. Y=PX即为降维到k维后的数据
    在这里插入图片描述

为什么要进行零均值化?
为什么样本协方差矩阵与X乘X的转置有关系?
为什么是求协方差矩阵的特征值特征向量?

这完全是数学家们的小巧思啊!一起来看一下吧~

为什么要进行零均值化?

将X的每一行进行零均值化,即减去这一行的均值后,重新对这样一行求均值,会发现均值为0,这会给后面的计算带来很美妙的结论。
在这里插入图片描述

可是不禁会想:给每一行减一个数不会给样本带来偏差吗?实际上是不会的,把所有人的身高都减一个值,只相当给样本进行了平移操作而已。

为什么样本协方差矩阵与X乘X的转置有关系?

我们继续来看,1/(n-1)倍的X乘X转置有什么小秘密:
在这里插入图片描述
看到最后这个计算结果有没有发现什么呢?在零均值化后A和B的均值都是0,此处再回忆一下样本方差与样本协方差之间的公式:
在这里插入图片描述

样本协方差和样本方差都是除n-1而不是n,这是为了保证无偏估计,但是当n足够大时,除n-1还是n是没有任何区别的,并且也不会对PCA的计算带来影响,后面我会解释为什么没有影响。

把均值等于0 带入上一个矩阵,会这不就是一个X的协方差矩阵吗?:
在这里插入图片描述
完美地解释了样本矩阵X的协方差为什么与X转置有关系。

为什么是求协方差矩阵的特征值特征向量?

继续回答第三个问题:
在上文的描述中我们已经明确:
Y=PX,Y为降维之后的样本矩阵,对于这个降维结果Y,我们希望他方差尽可能大,协方差为0。
在这里插入图片描述

接下来就可以推导出为什么是对协方差矩阵求特征值了
在这里插入图片描述
也就是说✨✨

  • 我们需要对A矩阵(也就是X的协方差矩阵,它是一个实对称矩阵)进行相似对角化,P矩阵由A的特征向量组成(需要单位化,P是一个正交矩阵),对角化后的结果就是Q,它也是Y的协方差矩阵,对角线上是矩阵A的特征值(也就是方差),其他地方都为0(即协方差=0)由于方差应该尽可能大,所以特征值必须要求从大到小排列。

  • 最后我们解释为什么用n或者n-1不会影响PCA的压缩结果,这是因为在矩阵前乘一个常数是不会影响特征向量的,也就是P不会变,投影结果当然也不会变。
    在这里插入图片描述

期末题库习题:
【一起入门MachineLearning】中科院机器学习-期末题库-【计算题1+多选题25】

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

vector<>

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值