在Python中使用PCA

PCA

Principal Component Analysis (PCA) 是一种线性降维技术。可用于将数据信息从高维空间映射到低维空间。经过PCA处理,数据变化较大的必要部分得以保留,而数据变化较小的非必要部分会被移除。

维度(dimension)

这里的维度指的是代表数据的特征。

主成分(principal component)

主成分是PCA技术中最关键的部分。它们能表示出数据集内部的隐含信息。
简单来说,将数据集从高维(假设为三维)映射到低维(假设为二维)时,这三个维度就是三个主成分,包含了大部分的数据变化信息。每个主成分代表从数据中获得的总变化的百分比。

数据集

本文中示例使用的数据集是数据分析中流行的数据集之一——乳腺癌(Breast Cancer)。
乳腺癌数据集由两个类别(恶性和良性)组成的实值多元数据,其中每个类别标识了患者是否患有乳腺癌。其中,恶性类包含212个样本值,良性类包含357个样本。
整个数据集内共有30种特征值(半径、直径、面积、分形维数等)。

代码

接下来使用Python代码,针对Breast Cancer数据集进行PCA分析。

  1. 数据探索
    使用sklearn模块,从sklearn模块的数据集中引入Breast Cancer数据集
from sklearn.datasets import load_breast_cancer

现在数据集已经成功导入,如果想要获取数据集中的数据,可以使用:

breast_data = load_breast_cancer().data

检查数据(注意,此时数据中不包含标签):

print(breast_data.shape)

结果为:

(569, 30)

可以看到,数据共有569个样本,有30种特征。
查看所有特征:

features = breast.feature_names
print(features)

结果为:

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']

对于每个样本,有一个对应的标签值。在本数据集中, 有两种标签。查看数据集中标签的方法:

print(load_breast_cancer().target)

结果为:

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 
  • 0
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值