主成分分析(PCA)

目录

一、简介

二、算法原理

三、算法实现

1.数据准备和标准化

2.计算协方差矩阵和特征向量特征值

3.选择主成分(PC)

4. 输出数据的值和可视化

5.完整代码 

 四、总结


一、简介

在使用机器学习解决现实中的许多问题时我们可能会遇到高维数据。这些数据虽然包含丰富的信息,但也会带来一些挑战,比如计算复杂度高、模型训练时间长、可视化困难等。主成分分析(PCA)是一种强大的降维技术,能够帮助我们简化数据,提取其中最重要的特征。

主成分分析(Principal Component Analysis, PCA)是一种线性降维方法,通过将高维数据投影到一个低维空间中,同时尽可能保留数据的主要信息。PCA的核心思想是找到数据中的主成分,这些主成分是数据方差最大的方向。

二、算法原理

本文以一组二维数据为例子,数据如下:

                     

先明确我们要实现的目标:减去维度,将信息尽可能的保留。

对于一个点而言,在降维后的坐标轴上保留的数据就是100%。但是对于多个点来说就不能这么理想的保留100%的信息。因此,我们需要一个指标来代表其中一个点的信息保留程度。为了更好的解释这个东西,我们先假设已经找到了降为后的坐标轴,如下图:

假设黄线为降维后的坐标轴,S是点A在一维坐标轴上的投影,这个投影就可以表示一个点在新的坐标轴上的信息保留程度,对于所有的点来说,我们只要求他们的投影的方差:

s^2 = \sum_{i}^{n}\frac{S^2}{n-1}=\overrightarrow{v}\cdot C\cdot \overrightarrow{v}^T

C是数据的协方差矩阵:

C = \begin{bmatrix} s^2(X) & cov(XY)\\ cov(XY)& s^2(Y) \end{bmatrix},cov(XY) = \sum_{i}^{n}\frac{(X_i-\overline{X})(Y_i-\overline{Y})}{n-1}

我们用拉格朗日乘数法求投影方差的最值:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值