1.PCA与降维
PCA主成分分析
简单的理解,就是把某物的很多个能直接获取到的特征,经过变换得到很多个新特征
,所有的新特征就是该物的成分。这些新特征对该物体来说,有的影响很大,有的影响很小,只需要使用这些影响大的新特征
,舍弃很多影响小的新特征
,就是使用主要的一些成分来分析,舍弃不重要的成分,这就是主成分分析的方法。相当于把特征维度给降低了,所以也叫降维
。
2.举例
例如,假如我们想要用新方法衡量一个学生综合素质,目前可以(直接采集)得到一个学生的特征有20个,例如身高体重年龄分数等,那么这个学生可以用20维向量来描述,但是这20维特征描述起来就太麻烦了。但是又不知道这些特征哪个重要,哪个不重要,不能随意舍弃。怎么办呢?
我们想要用新方法衡量一个学生综合素质,可以这样做:
- 先采集很多学生样本来,例如1000个学生,每个学生采集20个特征;
- 然后把这1000个学生的这20个特征进行处理,每个特征都求平均值,然后减去对应特征均值,后续处理直接参考下面
求解步骤
。 - 然后我们可以用新的20维特征组成的特征向量向量来描述该学生。但是我们可以只取 k = 5 \color{red}k=5 k=5,即,只取这新的20维特征前5个主要特征;这样也就把用20维向量描述一个学生,转化为只需要5维向量来描述一个学生。这就是降维。
注意,PCA并不是直接舍弃原始20个特征的某些特征,而是变换处理后,舍弃变换后的新的20个特征的一些不重要的新特征,只保留比较重要的前 k \color{red}k k 个比较重要的特征。
例如:
1000个样本,每个样本是20维向量。
- 每列表示一个样本,共1000列,20行,那么矩阵 X \color{blue}X X是 20 ∗ 1000 \color{blue}20*1000 20∗1000,
- 协方差矩阵是 20 ∗ 20 \color{blue}20*20 20∗20,那么得到的特征向量组成的矩阵也为 20 ∗ 20 \color{blue}20*20 20∗20。
- 如果取前
k
=
5
\color{blue}k=5
k=5 行,那么矩阵
P
\color{blue}P
P就是
P
5
∗
20
\color{blue}P_{5*20}
P5∗20。
那么 Y = P 5 ∗ 20 ∗ X 20 ∗ 1000 \color{blue}Y=P_{5*20}*X_{20*1000} Y=P5∗20∗X20∗1000, Y \color{blue}Y Y就是 5 ∗ 1000 \color{blue}5*1000 5∗1000的矩阵,表示把1000个 20 \color{blue}20 20维特征的样本降维到了 5 \color{blue}5 5个特征。
PCA主成分分析
的讲解博客:
如何通俗易懂地讲解什么是 PCA(主成分分析)?