数据分析学习总结笔记03:数据降维经典方法

1. 数据降维概述

用少数几个新的变量代替原有变量,合并重复信息,但不损失重要信息。

2. 数据降维的应用

  • 构建综合指标:主成分分析主要用于构建综合指标来区分目标群体,例如构建顾客各种消费行为的综合指标来进行客户分级。
  • 数据可视化:当原始变量维度很高时,可以采用第一、第二主成分散点图来直观表述数据特征,例如数据聚类信息等。
  • 变量压缩、重构:由“重要的”主成分重构原始变量,可以去除原始数据中冗余的噪音,突出数据的特征,例如人脸识别。

3. 数据降维经典方法

3.1 主成分分析(PCA)

3.1.1 PCA概述

主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等
PCA可以把具有相关性的高维变量合成为线性无关的低维变量,成为主成分。主成分能够尽可能保留原始数据的信息。举例,基于学生的各科成绩,建立一个(或几个)度量学生考试表现的综合指标,以明显地评价学生的学习情况。
PCA将涉及到以下几个统计学概念:

  • 方差:是各个样本和样本均值的差的平方和的均值,用来度量一组数据的离散程度。
    方差的计算公式
  • 协方差:用于度量两个变量之间的线性相关性程度,若两个变量的协方差为0,则可认为二者线性无关。协方差矩阵则是由变量的协方差值构成的矩阵(对称阵)。
    协方差的计算公式
  • 特征向量:矩阵的特征向量是描述数据集结构的非零向量,并满足以下公式:
    特征向量条件公式
    其中,A为方阵,v是特征向量,λ是特征值。

3.1.2 PCA原理

矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。即,主成分按照“方差贡献度”依次导出。
理解PCA
其算法过程如下所示:
PCA算法过程

3.1.3 PCA & LDA

    <
  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值