【机器学习】特征降维 - 主成分分析PCA

最新推荐文章于 2024-08-17 17:49:51 发布

士别三日wyx

最新推荐文章于 2024-08-17 17:49:51 发布

阅读量1.3w

点赞数 96

分类专栏：《机器学习入门到精通》文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/wangyuxiang946/article/details/131758573

版权

《机器学习入门到精通》专栏收录该内容

10 篇文章 44 订阅

订阅专栏

文章介绍了主成分分析(PCA)作为特征降维的方法，通过减少相关特征，提升数据处理速度。PCA根据变量相关性构建新变量，可用于降低数据维度。示例中展示了如何使用sklearn库进行PCA操作，包括指定维度和保留信息比例，并展示了如何获取协方差及将降维数据转换回原始数据。

摘要由CSDN通过智能技术生成

「作者主页」：士别三日wyx
「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者
「推荐专栏」：零基础快速入门人工智能《机器学习入门到精通》

一、主成分分析

主成分分析（Principal Component Analysis，PCA），是一种「统计」方法。通过正交变换将一组可能存在「相关性」的变量转换为一组「线性不相关」的变量，转换后的这组变量叫「主成分」。

统计变量时，变量个数太多并且有很强的相关性，也就是有很多「相似」的变量，这些变量会增加分析的工作量和「复杂性」。

而主成分分析可以根据变量之间的相关性，建立新的变量来替代哪些重复且不重要的变量；也就是用较少的变量来代替原来较多的变量，并可以反映原来多个变量的大部分信息，从而提升处理数据的「速度」。

比如评选三好学生，每个学生有身高、体重、家境、成绩等多个特征，但身高、体重这些特征对于评选来说是无用的，那我们就去掉这种无用特征，用成绩来代替他们。

sklearn.decomposition.PCA( n_components=None )

PCA.fit_transform( data ) ：接收数据并进行降维
PCA.inverse_transform( data )：将降维后的数据转回原始数据
PCA.get_covariance()：获取协方差数据
PCA.get_params()：获取模型数据
n_components：指定维度（小数：最终保留百分之多少的信息，整数：减少到多少特征）

二、指定维度

n_components 参数为「整数」，意思是降低到「指定维度」。

from sklearn import decomposition

# 测试数据
data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

# 初始化
pca = decomposition.PCA(n_components=2)

# 降维
result = pca.fit_transform(data)
print(result)

输出：

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]

从结果可以看到，特征从原本的3维降低到现在的2维。

PS：本来有3列，称为3维度；降维后变成2列，称为2维。

三、保留比例

n_components参数为「小数」，意思是降维后保留百分之多少的信息。

from sklearn import decomposition

# 测试数据
data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

# 初始化
pca = decomposition.PCA(n_components=0.30)

# 降维
result = pca.fit_transform(data)
print(result)

输出：

[[ 1.28620952e-15]
 [ 5.74456265e+00]
 [-5.74456265e+00]]

从结果可以看到，特征有原来的4维降低到1维，只保留了30%的信息。

四、获取协方差

from sklearn import decomposition

# 测试数据
data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

# 初始化
pca = decomposition.PCA(n_components=2)

# 降维
result = pca.fit_transform(data)
print(pca.get_covariance())

输出：

[[  4.33333333  -5.5         -1.66666667   1.16666667]
 [ -5.5          7.           1.5         -1.        ]
 [ -1.66666667   1.5         20.33333333 -15.83333333]
 [  1.16666667  -1.         -15.83333333  12.33333333]]

五、返回原始数据

将降维后的数据转换成原始数据

from sklearn import decomposition

# 测试数据
data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

# 初始化
pca = decomposition.PCA(n_components=2)

# 降维
result = pca.fit_transform(data)
print(pca.inverse_transform(result))

输出：


[[2. 8. 4. 5.]
 [6. 3. 0. 8.]
 [5. 4. 9. 1.]]

士别三日wyx

关注

96
点赞
踩
101

收藏

觉得还不错? 一键收藏
打赏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录