【PCA提取主要特征通俗】

原始数据投影到主要成分上是PCA,提取主要特征:

一、原始数据提取主要成分(不是简单的选取某一个特征,而是投影主要成分上

步骤如下:

假设我们已经通过PCA计算出了特征向量(主要成分),我们可以将原始数据投影到这些主要成分上。以下是具体步骤:

  1. 标准化原始数据:确保数据的每个特征都有均值为0,标准差为1。

  2. 计算协方差矩阵:用标准化数据计算协方差矩阵。

  3. 计算特征值和特征向量:从协方差矩阵中提取特征值和特征向量。

  4. 选择主要成分:选择前几个特征值最大的特征向量作为主要成分。

  5. 投影数据:将原始数据投影到选定的主要成分上,得到新的特征集合。

二、实际例子

假设我们有以下原始数据矩阵 ( X ):

X = ( 2.5 2.4 3.5 2.0 3.0 0.5 0.7 1.0 1.5 2.0 2.2 2.9 2.0 2.1 1.9 1.9 2.2 2.5 2.6 3.1 3.1 3.0 3.1 3.1 3.0 2.3 2.7 2.8 2.9 3.2 2.0 1.6 2.1 1.8 2.5 1.0 1.1 1.2 1.4 2.6 1.5 1.6 1.5 1.6 2.7 1.1 0.9 1.3 1.1 2.8 ) X = \begin{pmatrix} 2.5 & 2.4 & 3.5 & 2.0 & 3.0 \\ 0.5 & 0.7 & 1.0 & 1.5 & 2.0 \\ 2.2 & 2.9 & 2.0 & 2.1 & 1.9 \\ 1.9 & 2.2 & 2.5 & 2.6 & 3.1 \\ 3.1 & 3.0 & 3.1 & 3.1 & 3.0 \\ 2.3 & 2.7 & 2.8 & 2.9 & 3.2 \\ 2.0 & 1.6 & 2.1 & 1.8 & 2.5 \\ 1.0 & 1.1 & 1.2 & 1.4 & 2.6 \\ 1.5 & 1.6 & 1.5 & 1.6 & 2.7 \\ 1.1 & 0.9 & 1.3 & 1.1 & 2.8 \\ \end{pmatrix} X= 2.50.52.21.93.12.32.01.01.51.12.40.72.92.23.02.71.61.11.60.93.51.02.02.53.12.82.11.21.51.32.01.52.12.63.12.91.81.41.61.13.02.01.93.13.03.22.52.62.72.8

标准化数据

标准化每个特征:

Z = X − μ σ Z = \frac{X - \mu}{\sigma} Z=σXμ

其中 (\mu) 是每个特征的均值,(\sigma) 是每个特征的标准差。

计算协方差矩阵

Σ = 1 n − 1 Z T Z \Sigma = \frac{1}{n-1} Z^T Z Σ=n11ZTZ

计算特征值和特征向量

通过协方差矩阵计算特征值和特征向量:

Σ v = λ v \Sigma \mathbf{v} = \lambda \mathbf{v} Σv=λv

假设我们得到了以下三个主要成分(特征向量):

v 1 = ( 0.5 0.5 0.5 0.5 0.5 ) , v 2 = ( − 0.5 − 0.5 0.5 0.5 0.5 ) , v 3 = ( 0.5 0.5 − 0.5 0.5 0.5 ) \mathbf{v_1} = \begin{pmatrix} 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_2} = \begin{pmatrix} -0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_3} = \begin{pmatrix} 0.5 \\ 0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix} v1= 0.50.50.50.50.5 ,v2= 0.50.50.50.50.5 ,v3= 0.50.50.50.50.5

投影数据

将标准化后的原始数据矩阵 ( Z ) 投影到主要成分上:

Y = Z V Y = Z \mathbf{V} Y=ZV

其中 ( \mathbf{V} ) 是特征向量矩阵:

V = ( v 1 v 2 v 3 ) \mathbf{V} = \begin{pmatrix} \mathbf{v_1} & \mathbf{v_2} & \mathbf{v_3} \end{pmatrix} V=(v1v2v3)
投影后的新数据矩阵 ( Y ):

Y = Z ( 0.5 − 0.5 0.5 0.5 − 0.5 0.5 0.5 0.5 − 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ) Y = Z \begin{pmatrix} 0.5 & -0.5 & 0.5 \\ 0.5 & -0.5 & 0.5 \\ 0.5 & 0.5 & -0.5 \\ 0.5 & 0.5 & 0.5 \\ 0.5 & 0.5 & 0.5 \\ \end{pmatrix} Y=Z 0.50.50.50.50.50.50.50.50.50.50.50.50.50.50.5

这样,我们就得到了新的特征集合(主成分)( Y )。

三、 示例代码说明

我们可以使用Python的NumPy和Pandas库来实现这一过程。下面是一个示例代码:

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 原始数据
data = np.array([
    [2.5, 2.4, 3.5, 2.0, 3.0],
    [0.5, 0.7, 1.0, 1.5, 2.0],
    [2.2, 2.9, 2.0, 2.1, 1.9],
    [1.9, 2.2, 2.5, 2.6, 3.1],
    [3.1, 3.0, 3.1, 3.1, 3.0],
    [2.3, 2.7, 2.8, 2.9, 3.2],
    [2.0, 1.6, 2.1, 1.8, 2.5],
    [1.0, 1.1, 1.2, 1.4, 2.6],
    [1.5, 1.6, 1.5, 1.6, 2.7],
    [1.1, 0.9, 1.3, 1.1, 2.8],
])

# 标准化数据
scaler = StandardScaler()
data_std = scaler.fit_transform(data)

# PCA转换
pca = PCA(n_components=3)
principal_components = pca.fit_transform(data_std)

# 打印结果
principal_df = pd.DataFrame(data=principal_components, columns=['V1', 'V2', 'V3'])
print(principal_df)

通过上述步骤,我们可以将原始数据投影到主要成分上,从而生成新的特征集合。这些新的特征保留了数据中的主要信息,同时简化了数据结构。

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值