通俗易懂的PCA降维原理详解

       在机器学习实际的开发中,对原始数据的处理可能会占到主要的工作量,数据处理的好坏也往往直接关系到模型最后结果的好坏。在我们对原始数据进行特征提取时,有时会得到高维的特征向量,其中包含很多冗余和噪声。此时我们希望在高维的特征中找到影响整体的最主要的特征,来提升特征的表达能力、降低训练的复杂度。今天大管就和大家来聊一聊主成分分析(Principal Components Analysis)简称PCA是如何做到的。

PCA的目的是找到数据中的主要成分,并且利用这些主要成分表示原始数据,从而达到降维的目的。在高维数据中,想要精准的找到主成分是非常困难的,现在我们从二维的说起PCA是如何工作的。如下图所示

       从图中可以看到,数据的主要成分坐在PC1这条轴上,这条轴上的数据有什么特点呢?数据的分布更为分散,即数据的方差更大。如果不好理解可以这样假设,当数据在某个轴上的投影为一个点,这样好吗?当然不好,因为一个点的话会丢掉左右数据的特征。比如在信号处理领域,信号具有较大的方差,噪声则具有较小的方差,信号与噪声的比叫做信噪比,信噪比越大意味着数据的质量越好。由此,可以得到,PCA的目标为最大化投影方差即让数据在主轴上投影的方差最大。

具体的做法如下

假设我们有一组数据点:

其中所有的向量均为列向量,对这些数据进行中心化:

其中μ是数据的均值。

    在数学中,向量投影到另一个向量上的长度用向量的内积表示,因此向量xi在ω上的投影坐标可以表示为:

故PCA的目标又可以理解为找到一个投影方向ω,使得x1,x2,...xn在ω上的投影方差尽可能的大。(ω为方向单位向量,投影之后的均值为0)

投影之后的方差为:

上述的结果其实就是协方差矩阵,我们设为∑。由于ω是单位方向向量,所以ωTω=1。所以我们的最大化问题可以表示为:

使用拉格朗日乘子法,对w求导,令其等于0,得到∑ω=λω。故

到这里悬着的心终于落下来了,原来,x投影后的方差就是其协方差矩阵的特征值。最大的方差也就是协方差矩阵最大的特征值,次佳的投影方向就是第二大特征值,以此类推。于是我们得到PCA的求解步骤

PCA求解步骤

(1)对样本进行中心化处理;

(2)球中心化处理后的协方差矩阵;

(3)对协方差矩阵进行特征值分解,将特征向量从大到小排列;

(4)去前d个特征向量w1,w2,...wd,通过以下映射将n维样本降维到d维。

更多内容请扫描下方二维码关注小编公众号:程序员大管

参考资料

周志华 《机器学习》

葫芦娃   《百面机器学习》

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
抱歉,根据提供的引用内容,没有给出pca降维原理示意图的描述或者引用。但是,我可以通过文字来给你解释一下pca降维原理PCA(Principal Component Analysis,主成分分析)的主要思想是将n维特征映射到k维上,其中k维是全新的正交特征,也被称为主成分。这些主成分是在原有n维特征的基础上重新构造出来的。PCA的目标是通过保留数据中的主要信息来降低数据的维度。具体来说,PCA通过线性变换将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这样可以保留尽可能多的信息,并且可以减少数据的冗余。降维后的数据可以用更少的维度来表示,从而减少计算和存储的成本。PCA的核心计算是通过特征值分解来获得主成分,并且特征值越大的主成分所包含的信息越多。因此,选择保留的主成分个数或者降维后的维度可以根据主成分的方差和比例来确定。PCA在sklearn中使用简单,一般只需要指定需要降维到的维度或者降维后的主成分的方差和占原始维度所有特征方差和的比例阈值。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [图解机器学习算法(14) | PCA降维算法详解机器学习通关指南·完结)](https://blog.csdn.net/ShowMeAI/article/details/123408773)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [数据降维1:主成分分析法思想及原理(配图版)](https://blog.csdn.net/zhaodedong/article/details/103775967)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值