机器学习——主成分分析(PCA)

主成分分析(PCA)是一种常用的数据降维方法,旨在找到一个低维空间,尽可能保留原始数据集的信息。PCA通过对数据进行标准化、计算协方差矩阵、求解特征值与特征向量,确定主成分。其优点包括简化数据复杂性,但缺点是可能丢失部分信息,且主成分的解释性较弱。
摘要由CSDN通过智能技术生成
1、PCA的思想

主成分分析(Principal Component Analysis)是一种最常用的数据降维手段。将大量变量转化成一组很少的不相关变量,这些不关变量称为主成分,并且尽可能地保留原始数据集的信息。
假如我们的数据集 D D D n n n维的,共有 m m m个数据 ( x ( 1 ) , x ( 2 ) , ⋯   , x ( m ) ) (x^{(1)},x^{(2)},\cdots,x^{(m)}) (x(1),x(2),,x(m)),我们希望将这 m m m个数据的维度从 n n n维降到 n ′ n' n维,希望这 m m m n ′ n' n维的数据集尽可能的代表原始数据集。我们知道数据从 n n n维降到 n ′ n' n维肯定会有损失,但是我们希望损失尽可能的小。那么如何让这 n ′ n' n维的数据尽可能表示原来的数据呢?
举一个最简单的例子:
n = 2 , n ′ = 1 n=2,n'=1 n=2,n=1时,我们希望找到一个一维方向可以尽可能代表原始数据集,图中列了两个向量方向, u 1 u_1 u1 u 2 u_2 u2,那么哪个向量可以更好的代表原始数据集呢?从直观上也可以看出, u 1 u_1 u1 u 2 u_2 u2好。

为什么 u 1 u_1 u1 u 2 u_2 u2好呢?可以有两种解释:
第一种解释是样本点到这个直线的距离足够近
第二种解释是样本点在这个直线上的投影能尽可能的分开

因此,我们希望降维的标准为:样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开

2、PCA算法流程

(1)各变量数据标准化
目的:标准化输入数据集,使数据成比例缩小
PCA方法对于初始变量的方差非常敏感,如果初始变量方差的差异很大,这将导致主成分的偏差,因此第一步需要将各初始变量的数据标准化,标准化公式:
x n e w = x i − μ σ x_{new}=\frac{x_i-\mu}{\sigma} xnew=σxiμ
μ \mu μ:代表特征 x x x的均值
σ \sigma σ:代表特征 x x x的标准差

(2)计算样本的协方差矩阵
协方差定义:
C o v ( x , y ) = E ( ( x − μ x ) ( y − μ y ) ) Cov(x,y)=E((x-\mu_x)(y-\mu_y)) Co

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值