降维：PCA推导以及iris实例

@玉面小蛟龙

已于 2022-08-11 19:05:25 修改

阅读量940

点赞数 3

分类专栏：学习杂记文章标签：机器学习算法

于 2022-08-09 19:46:04 首次发布

本文链接：https://blog.csdn.net/qq_43610614/article/details/126251156

版权

学习杂记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

主成成分分析pca

$\qquad$ 非监督学习算法。
$\qquad$ 通过正交变换将数据换到新坐标中，从而将原本可能相关的便便（特征）投影到线性无关的变量（特征）。如果变换后的维度小于变换前的维度，则实现降维。

为什么要对数据进行去中心化？

$\qquad$ 中心化后，计算方差，协方差，协方差矩阵等运算更加方便。

为什么要保证投影方向方差最大？

$\qquad$ 投影方差越大，意味着数据越分散，相对于原始数据来说，能够保留的信息越多。如果方差很小，则表示数据很大部分重叠，保留信息少。
$\qquad$ 对于PCA来说，作为分类回归等任务的前置步骤（数据预处理阶段）。特征方差越大，说明样本之间区分越明显，这样就越容易完成分类或回归任务

为什么选择向量时，要与之前的向量正交？

$\qquad$ 如果没有限制，则第一主成分和第二主成分相同，无意义。
$\qquad$ 选择正交的基，是因为正交的基相关性为0。这样能够保留最大的信息。如果基之间是相关的，当样本数据向基向量投影时，也就一定相关，选在重叠。

为什么pca要选择单位向量？

$\qquad$ 向单位向量上投影时，投影值计算更方便，向量内积即可。
在这里插入图片描述
向量v在w上的投影为：pro=|v| $*$ cosθ
由：v $*$ w=|v| $*$ |w| $*$ cosθ
得到cosθ= $v*w\over |v|*|w|$
上式带入投影：pro= $v*w\over |w|$
如果w为单位向量，则投影为内积,直接点成就行。

步骤

$\qquad$ 假设我们要将数据投影到k个坐标轴上，需要新基k个向量。步骤如下：

数据去中心化，使得每个维度为0
寻找一个单位向量 $w_1$ （坐标轴，第一主成分），使得数据在该方向上投影方差最大
寻找第二个单位向量 $w_2$ （第二主成分），使得 $w_2$ 与之前找到的所有向量正交，并使改箱量上的投影次大。（次与 $w_1$ 上的方差）
按上述方式在，依次找到 $w_1$ ， $w_2$ … $w_k$ 。 $w_k$ 为第k主成分，样本数据在 $w_k$ 的投影方差第k大
将得到的单位向量 $w_1$ ， $w_2$ … $w_k$ 。 $w_k$ 构成一个基。该基就是新的坐标系
将样本数据投影到该基上么就完成正交变换

推导

数据集（假定已经去中心化）：X=（ $x_1$ , $x_2$ … $x_m$ ）∈ ${R^{n×m}}$ 。n维m个
$x_1$ ∈ ${R^{n×1}}$

待求：W=（ $w_1$ , $w_2$ … $w_d$ ）∈ ${R^{n×d}}$ 。d为降维后维数
$w_1$ ∈ ${R^{n×1}}$ ，w用原基表示，所以仍然是n维。
约束条件： ${W^T}$ W=I（单位矩阵）∈ ${R^{d×d}}$

新基下的数据集：Z=（ $z_1$ , $z_2$ … $z_m$ ）∈ ${R^{d×m}}$ 。d维m个
$\qquad$ $z_1^T$ ={ $z_{11}$ , $z_{12}$ … $z_{1d}$ }
$\qquad\;\;\;\;$ ={ $w_1^T$ $x_1$ , $w_2^T$ $x_1$ … $w_d^T$ $x_1$ }

$z_{ij}$ = $w_j^T$ $x_i$
$z_{i}$ = $W^T$ $x_i$

最小重构误差角度

$\qquad$ 重构 $x_i$ ：新基的各个方向拉长相应投影倍，再全部加和。（向量相加）
$\qquad$ 则重构的 $x_i$ 可表示为： $\sum_{j=1}^{d}$ $z_{ij}$ $w_j$ =W $z_{i}$
$\qquad$ 重构后误差最小，得到目标函数：
$\qquad$ $\qquad$ $argmin_w$ $\;\;\;$ $\sum_{i=1}^{m}$ || $x_i$ - $\sum_{j=1}^{d}$ $z_{ij}$ $w_j$ $^2$
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ ( $x_i$ -W $z_{i}$ $^T$ ( $x_i$ -W $z_{i}$ )
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ [ $x_i^T$ $x_i$ - $x_i^T$ W $z_{i}$ - $z_i^T$ $W^T$ $x_{i}$ + $z_i^T$ $W^T$ W $z_{i}$ ]
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ [ $x_i^T$ $x_i$ -2 $z_i^T$ $W^T$ $x_{i}$ + $z_i^T$ $z_{i}$ ]
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ [ $x_i^T$ $x_i$ -2 $z_i^T$ $z_{i}$ + $z_i^T$ $z_{i}$ ]
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ [- $z_i^T$ $z_{i}$ + $x_i^T$ $x_i$ ]

notes: $\qquad$ $x_i^T$ W $z_{i}$ 以及 $z_i^T$ $W^T$ $x_{i}$ 互为转置，且都是一个数，可以合并
$\qquad$ $\qquad$ 约束条件： ${W^T}$ W=I（单位矩阵）∈ ${R^{d×d}}$
$\qquad$ $\qquad$ $x_i^T$ $x_i$ 为原始数据方差，是一个常数，可省略

此时目标函数可优化为：
$\qquad$ $\qquad$ $argmin_w$ $\;\;\;$ $\sum_{i=1}^{d}$ - $z_i^T$ $z_{i}$
$\qquad$ $\qquad$ $\qquad$ $\qquad$ =- $\sum_{i=1}^{d}$ $z_i^T$ $z_{i}$
$\qquad$ $\qquad$ $\qquad$ $\qquad$ =- $\sum_{i=1}^{d}$ tr( $z_{i}$ $z_i^T$ )
$\qquad$ $\qquad$ $\qquad$ $\qquad$ =- $\sum_{i=1}^{d}$ tr( $W^T$ $x_i$ $x_i^T$ $W$ )
$\qquad$ $\qquad$ $\qquad$ $\qquad$ =-tr( $W^T$ $\sum_{i=1}^{d}$ $x_i$ $x_i^T$ $W$ )
令C= $\sum_{i=1}^{d}$ $x_i$ $x_i^T$ =X $X^T$ （为散度矩阵，再除以个数减一就是协方差矩阵）
$\qquad$ $\qquad$ $\qquad$ $\qquad$ =-tr( $W^T$ C $W$ ) $\qquad$ $\qquad$ $\qquad$ (1)
s.t. ${W^T}$ W=I

由拉格朗日乘数法得到：
$\qquad$ L（W,∧）=-tr( $W^T$ C $W$ )+tr（∧（ ${W^T}$ W-I））
∧=diag（ $λ_1$ ， $λ_2$ ,…, $λ_d$ )
L对W求导，并令结果为0，得到：矩阵求导
$\qquad$ $\qquad$ $\qquad$ $\qquad$ （C+ $C^T$ ）W=2W∧
$\qquad$ $\qquad$ $\qquad$ $\qquad$ $\qquad$ CW=W∧ $\qquad$ $\qquad$ $\qquad$ (2)
对任意 $λ_i$ 都有：
$\qquad$ $\qquad$ $\qquad$ $\qquad$ C $w_i$ = $λ_i$ $w_i$
即 $λ_i$ 为C的特征值， $w_i$ 为对应的特征向量。

（2）带入（1）得到：
$\qquad$ $\qquad$ $\qquad$ $argmin_w$ $\;\;\;$ -tr( $W^T$ C $W$ )
$\qquad$ $\qquad$ $\qquad$ =-tr( $W^T$ $W$ ∧)
$\qquad$ $\qquad$ $\qquad$ =-tr(∧)
最小的重构误差==对角矩阵的迹和的最大值
W就位最大的d个特征值对应的特征向量

最大方差角度

投影后数据方差最大
$\qquad$ $\qquad$ $argmax_w$ $\;\;\;$ $\sum_{i=1}^{d}$ ( $z_i$ $^2$
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ $z_i^T$ $z_{i}$
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ tr( $z_{i}$ $z_i^T$ )
$\qquad$ $\qquad$ $\qquad$ $\qquad$ = $\sum_{i=1}^{d}$ tr( $W^T$ $x_i$ $x_i^T$ $W$ )
$\qquad$ $\qquad$ $\qquad$ $\qquad$ =tr( $W^T$ C $W$ )
即求最大的迹，最大的d个特征值。与最小重构相同了

手动实现

步骤

对样本数据进行中心化
求散度矩阵X $X^T$
求X $X^T$ 的特征值以及特征向量
选取最大的d个特征值对应的特征向量组成W=（ $w_1$ , $w_2$ … $w_d$ ）
降维后数据Z= $W^T$ X

iris代码

单步

数据集是m×n，为推到中的数据集的转置

import numpy as np
import matplotlib.pyplot as plt

#载入鸢尾花数据集
from sklearn import datasets
iris=datasets.load_iris()
x=iris.data
y=iris.target

#第一步，去中心化
#按列求和
x_sum=np.sum(x,axis=0)
x_mean=x_sum/x.shape[0]
x=x-x_mean
#x=x-x.mean(axis=0)
print(x)

在这里插入图片描述

#求C=x^TX
c=np.dot(x.T,x)
print(c)

在这里插入图片描述

#求特征值以及特征向量
val,vector=np.linalg.eig(c)
print(val)
print(vector)

在这里插入图片描述

#对特征值进行排序，index保存索引
index=np.argsort(-val)
print(index)

在这里插入图片描述

#print(index[:2])
#投影矩阵 -为最大的特征值对应特征向量，即index对应索引对应的列。降到2维
A=vector[:,index[:2]]
print(A)

在这里插入图片描述

#投影后矩阵
Y=np.dot(x,A)
print(Y)

在这里插入图片描述

#画图
for i in range(len(y)):
    if y[i]==0:
        plt.scatter(Y[i][0],Y[i][1],c='r',marker='.')
    elif y[i]==1:
        plt.scatter(Y[i][0],Y[i][1],c='b',marker='.')
    else:
        plt.scatter(Y[i][0],Y[i][1],c='g',marker='.')
plt.show()

在这里插入图片描述
这个图和网上的第二主成分和网上的图相反。但是没关系，是第二主成分方向反了的问题，并不影响。在Y[i][1]前面加负号就得到了网上的图

#画图
for i in range(len(y)):
    if y[i]==0:
        plt.scatter(Y[i][0],-Y[i][1],c='r',marker='.')
    elif y[i]==1:
        plt.scatter(Y[i][0],-Y[i][1],c='b',marker='.')
    else:
        plt.scatter(Y[i][0],-Y[i][1],c='g',marker='.')
plt.show()

在这里插入图片描述

函数

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

#x:一个数据为一行
def PCA_fit(d_dim,x):
    #去中心化
    x=x-x.mean(axis=0)
    #求C
    C=np.dot(x.T,x)
    #求特征值以及特征向量
    val,vector=np.linalg.eig(C)
    #求排序索引
    index=np.argsort(-val)
    #投影矩阵 
    A=vector[:,index[:d_dim]]
    #返回降维后的数据
    return np.dot(x,A)

iris=datasets.load_iris()
x=iris.data
y=iris.target
#降维后数据Y,调用函数
Y=PCA_fit(2,x)
#画图
for i in range(len(y)):
    if y[i]==0:
        plt.scatter(Y[i][0],-Y[i][1],c='r',marker='.')
    elif y[i]==1:
        plt.scatter(Y[i][0],-Y[i][1],c='b',marker='.')
    else:
        plt.scatter(Y[i][0],-Y[i][1],c='g',marker='.')
plt.show()

在这里插入图片描述

class PCA():
    def __init__(self,n_components):
        self.n_components=n_components
    def fit_transform(self,X):
        #去中心化
        X=X-X.mean(axis=0)
        #求协方差矩阵
        self.covariance=np.dot(X.T,X)/X.shape[0]
        #求特征值以及特征向量
        val,vector=np.linalg.eig(self.covariance)
        #求排序索引
        index=np.argsort(-val)
        #投影矩阵 ,降维矩阵
        self.components_=vector[:,index[:self.n_components]]
        #返回降维后的数据
        return np.dot(x,self.components_)

iris=datasets.load_iris()
x=iris.data
y=iris.target
#降维后数据Y,调用函数
pca=PCA(n_components=2)
Y=pca.fit_transform(x)
#画图
for i in range(len(y)):
    if y[i]==0:
        plt.scatter(Y[i][0],-Y[i][1],c='r',marker='.')
    elif y[i]==1:
        plt.scatter(Y[i][0],-Y[i][1],c='b',marker='.')
    else:
        plt.sca

在这里插入图片描述

sklearn

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.decomposition import PCA

iris=datasets.load_iris()
x=iris.data
y=iris.target
pca=PCA(n_components=2)#降到二维
pca.fit(x)
Y=pca.fit_transform(x)#降维后数据
#画图
for i in range(len(y)):
    if y[i]==0:
        plt.scatter(Y[i][0],Y[i][1],c='r',marker='.')
    elif y[i]==1:
        plt.scatter(Y[i][0],Y[i][1],c='b',marker='.')
    else:
        plt.scatter(Y[i][0],Y[i][1],c='g',marker='.')
plt.show()