机器学习 — 主成分分析(PCA),python(sklearn)实现

机器学习 — 主成分分析(PCA),python(sklearn)实现

一、概念

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过 正交变换 将一组可能存在相关性的变量转换为 一组 线性不相关 的变量,转换后的这组变量叫 主成分

二、PCA算法内容

  1. 基本思想:
    主成分分析是设法将原来众多具有一定相关性(比如 n 个指标),重新组合成一组(k 个)新的互相无关的 综合指标(主成分) 来代替原来的指标。
    主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。通常数学上的处理就是将原来 n 个指标作线性组合,作为新的综合指标。

  2. PCA工作的机制:
    PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。
    通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

  3. PCA优化目标:
    PCA(是一种数据降维的方法,即用较少特征的数据表达较多特征地数据(数据压缩,PCA属于有损压缩)。PCA推导有两种主要思路:

    • 最大化数据投影后的的方差(让数据更分散)
    • 最小化投影造成的损失

    本文选择的是思路1,即投影后的数据方差最大。

三、PCA算法推导

1. 问题描述

假设有一组待降维的数据,原始数据是两维(f1,f2),利用PCA将两维降为1维,并尽可能多的保留原始数据的信息。

原始数据如下:

f1f2
D114
D225
D334
D445
D552

以 f1 为横坐标,f2 为纵坐标,则6个数据在坐标轴上面的为:
在这里插入图片描述

2. 数据去均值处理

首先利用去均值法将样本均值点移到坐标轴的中心:
f1维的均值 f1_mean = (1+2+3+4+5)/ 5 = 3,
f2维的均值 f2_mean = (4+5+4+5+2)/ 5 = 4
去均值处理后的数据:

f1f2
D1-20
D2-11
D300
D411
D52-2

在这里插入图片描述

3. 投影处理

原始数据是两维(f1,f2),利用PCA将两维降为1维,并尽可能多的保留原始数据的信息。
做法:
  我们需要找到一个投影方向,使得原始数据在该方向上的投影点分散的最开。
如原始数据点在投影方向上的投影点为:D1’,D2’,D3’,D4’,D5’,目标是:找一个投影方向使得投影点分散程度最大。

在这里插入图片描述

而分散程度取决于方差, 所 以 问 题 转 化 为 : 找 到 让 所 有 点 在 某 一 方 向 上 的 投 影 至 坐 标 中 心 距 离 的 方 差 最 大 的 投 影 方 向 。 \color{red}所以问题转化为:找到让所有点在某一方向上的投影至坐标中心距离的方差最大的投影方向。
(为什么是投影点至坐标中心,因为在上一步进行过将数据中的均值点移至坐标轴中心的操作)

4. 寻找投影方向

如何求令方差最大的投影方向?

在这里插入图片描述
令投影方向的单位向量为 R ⃗ (u,v),且 u2 + v2 = 1
令向量 ODi ⃗ 在 R ⃗ 上的投影为 di,则 di为:在这里插入图片描述
此时:所有投影点至中心距离的方差S2为:
在这里插入图片描述
设矩阵A为去均值后的数据点,即:
A = [ − 2 0 − 1 1 0 0 1 1 2 − 2 ] A = \left[ \begin{matrix} -2 & 0 \\ -1 & 1 \\ 0 & 0 \\ 1 & 1 \\ 2 & -2 \\ \end{matrix} \right] A=2101201012

此时,S2可转化为:
在这里插入图片描述

这时候先停一下,让我们来看一下变量之间的方差和协方差的计算:
(如果关于协方差不清楚的朋友可以参考:https://blog.csdn.net/pentiumCM/article/details/103603757

  f1 的方差:
在这里插入图片描述
  f1,f2的协方差:
在这里插入图片描述
  f1,f2的协方差矩阵C:
在这里插入图片描述
我们可以发现上面的 S2可以进一步推导为:
在这里插入图片描述
所以问题转化为求如下最值问题:在这里插入图片描述

5. 拉格朗日求解问题

使用拉格朗日乘子法来求最值:
目标函数:在这里插入图片描述 构建拉格朗日的乘子函数如下:
在这里插入图片描述
F对R ⃗ 进行求偏导,并令偏导为0:在这里插入图片描述可得:在这里插入图片描述(可见,λ为C的特征值,R ⃗ 为特征向量)
所以有:在这里插入图片描述
即在在某一主成分上的投影方差 S2 等于C的特征值,我们取最大的特征值即可。

6. 特征值/特征向量分解

对协方差矩阵进行 特征值/特征向量分解:
(如何求特征值特征向量可参考:https://blog.csdn.net/pentiumCM/article/details/105652853

协方差矩阵C为:在这里插入图片描述
分解的特征值与特征向量为:λ1,λ2 和 α1,α2在这里插入图片描述
我们取特征值 λ1 所对应的特征向量 α1 作为投影的方向向量 R ⃗ 。

数据投影变换后的结果为:在这里插入图片描述
至此,我们便将原来的二维数据降到了一维。
选择的新的主成分为:PC1 = 0.8506 * f1 - 0.5257 * f2,可以看出主成分是原特征的线性组合。
PC1主成分的方差为3.11803,保留了原始数据 3.11803 / (3.11803 + 0.881966) = 77.95%的信息。

四、算法实现

sklearn的算法过程如下:

#!/usr/bin/env python
# encoding: utf-8
'''
@Author  : pentiumCM
@Email   : 842679178@qq.com
@Software: PyCharm
@File    : pca_demo.py
@Time    : 2020/4/14 11:22
@desc	 : PCA主成分分析demo
'''
import numpy as np
from sklearn.decomposition import PCA

f1 = [1, 2, 3, 4, 5]
f2 = [4, 5, 4, 5, 2]

data = np.array([f1, f2])

cov_f = np.cov(data)
print("协方差矩阵:", cov_f)
eigenvalue, featurevector = np.linalg.eig(cov_f)

print("特征值:", eigenvalue)
print("特征向量:", featurevector)

data = data.T
pca = PCA(n_components=1)
pca.fit(data)
print("降维后的数据:", pca.transform(data))

# 降维后的各主成分的方差值占总方差值的比例,即方差贡献率
print("方差贡献率:", pca.explained_variance_ratio_)

# 降维后的各主成分的方差值
print("主成分方差:", pca.explained_variance_)

运行的结果:

协方差矩阵: [[ 2.5 -1. ]
 			[-1.   1.5]]
特征值: [3.11803399 0.88196601]
特征向量: [[ 0.85065081  0.52573111]
 		  [-0.52573111  0.85065081]]
降维后的数据: [[-1.70130162]
 			  [-1.37638192]
 			  [ 0.        ]
 			  [ 0.3249197 ]
 			  [ 2.75276384]]
方差贡献率: [0.7795085]
主成分方差: [3.11803399]

参考资料

  • 3
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值