主成分分析(PCA)原理与特征选取

本文介绍了主成分分析(PCA)的基本原理、作用以及在实际案例中的应用。PCA作为一种数据降维技术,用于筛选重要特征、数据可视化和压缩,通过累积方差贡献率确定关键特征。作者演示了如何使用Python进行PCA并提取有效特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主成分分析(PCA)原理与特征选取



前言

在许多领域中存在着大量数据特征,我们通常需要在海量的数据中提取出有价值的信息,例如如何在众多的数据特征中筛选或者是提取出高度有效的特征指标,而PCA就是一种能够解决此类问题的有效方法。


一、什么是PCA?

PCA(Principal Component Analysis),即主成分分析方法,主成分顾名思义就是代表一个数据中或者是事件中最重要、最主要的成分。主成分分析是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上(k<=n),这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

二、PCA作用

主成分分析能将高维的数据映射到低维的空间中,同时保留数据集中最重要的特征,其中主要作用包括:

  1. 数据降维:PCA能够将高维数据转换为低维空间表示,能够很好的节约计算成本,同时更加有利于进行数据可视化与理解数据等。
  2. 特征提取:PCA可以识别数据中最重要的特征,通过累计方差贡献率,找到特征之间得分最高、对数据影响最大的特征。
  3. 压缩数据:PCA可以对数据进行压缩,减少存储空间与传输成本,在压缩的同时,尽可能保留了数据最主要的信息。
  4. 去噪:PCA可以帮助消除数据中的噪声,改善数据的质量和可靠性。

三、PCA原理

主成分分析法是运用“降维”思想,把多个指标变换成少数综合指标的多元统计方法,这里的综合指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。根据标准化后的数据集计算协方差矩阵R:

注意需要先对数据进行标准化

计算矩阵 R 的特征值 λ 1 ≥λ 2 ≥…≥λ n ≥ 0及 对应的特征向量 u1 ,u2 ,…,un ,其中 uj= (u1 j,u2 j, …,u nj) ,u nj 表示第 j 个特征向量的第 n 个分量; 由特征向量组成 n 个新的指标变量:

在这里插入图片描述

式中,y 1 是第 1 主成分,y 2 是第 2 主成分,…,y n 是第 n 主成分。 计算各主成分y j 贡献率 b j(j=1,2,…,n) 及 y 1,y 2 ,…,y n (p ≤ n)的累计贡献率 αp。

Alt

Alt

四、案例分析

1.引入库

#导入所需要
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值