《 Dianchen Raw’s Machine Learning 学习笔记系列 ---- 小白角度看机器学习》
有导航,不迷路。
(1). DeepLearning之LSTM模型输入参数:time_step, input_size, batch_size的理解
(2). DeepLearning之LSTM模型输入数据:白话降维解说
(3). MachineLearning之降维艺术–PCA算法原理及多种方法实现
本文摘要:
-
如何利用PCA解决实际问题的痛点?
-
PCA的各种参数映射到实际物理问题都映射着什么?
-
如何更好的理解PCA?
1. PCA的基本介绍
- PCA全称是principal components analysis,中文的含义是主要成分分析。
- 也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标,几个综合指标也可以转化是从最小的指标综合而成。
- 在统计学中,主成分分析PCA是一种简化数据集的技术。
2. PCA原理,如何降维
- 它是一个线性变换。
- 这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
- 主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
- 这是通过保留低阶主成分,忽略高阶主成分做到的。
- PCA 的目标是寻找 r ( r<n )个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模,将特征向量的维数降低,挑选出最少的维数来概括最重要特征。
- 每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。
- 这 r 个新变量称为“主成分”,它们可以在很大程度上反映原来 n 个变量的影响,并且这些新变量是互不相关的,也是正交的。
- 通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。
3. PCA如何实现(SPSS, Python)
- 矩阵的特征方程式是:A * x = lamda * x
- 这个方程可以看出什么?上次我们提到矩阵实际可以看作一个变换,方程左边就是把向量x变到另一个位置而已;
- 右边就是把向量x作了一个拉伸,拉伸量是lamda。
- 那么它的意义就很明显了,表达了矩阵A的一个特性就是这个矩阵可以把向量x拉长(或缩短)lamda倍,仅此而已。
- PCA的spss实现,运用SPSS进行PCA主成分分析(因子分析)
- PCA的python实现,主成分分析法以及python实现
- PCA的R语言实现,R语言与主成分分析
4. 特征值与特征向量都是啥意思?
- 特征值对应的特征向量就是理想中想取得正确的坐标轴
- 特征值就等于数据在旋转之后的坐标上对应维度上的方差。
- 这个就是特征值和特征向量的一个实际应用:“得出使数据在各个维度区分度达到最大的坐标轴。”
5. PCA的实际物理意义什么?
- 所以,在数据挖掘中,就会直接用特征值来描述对应特征向量方向上包含的信息量,
- 而某一特征值除以所有特征值的和的值就为:该特征向量的方差贡献率(方差贡献率代表了该维度下蕴含的信息量的比例)。
- 通常经过特征向量变换下的数据被称为变量的主成分,当前m个主成分累计的方差贡献率达到一个较高的百分数(如85%以上)的话,就保留着这m个主成分的数据。
- 实现了对数据进行降维的目的。整个主成分分析的算法原理也就是这个。
6. 痛点:PCA能干什么?
- 数据降维
- 特征工程
- 综合指标
7. 小白的理解与总结
- 当数据的的维数过多时,在尽可能不减少数据信息的情况下,可有效减少数据的维数
- 当有过多的特征不好抓取时,可使用PCA进行特征的提取,例如图片识别(轮廓)
- 当子指标过多时,可使用PCA对子指标进行分类,变为几个较为重要的综合指标
————————————————
参考链接,尊重原创,支持原创!