Python——常用数据降维算法应用

随着数据的积累,数据的维度越来越高,高维的数据在带来更多信息的同时,也带来了信息冗余、计算困难等问题,所以对数据进行合理的降维,并保留主要信息非常重要。这些问题主要可以通过主成分分析及相关的降维算法来解决。

一些经典的降维算法有:主成分分析、MSD降维、t-SNE降维等。

1: 数据准备

将会使用手写体数字数据,该数据一共有1797个样本,每个图像包含64个像素值,数据导入后的情况如下所示:

## 导入数据,该数据有1797个样本,每个图像包含64个像素值
digit = pd.read_csv("data/chap06/digit.csv",header=None)
## 获取待使用的数据
digitX = digit.values[:,0:-1]/16
digitY = digit.values[:,64]
digit

2: 主成分分析数据降维

主成分分析可以通过Sklearn库中的PCA来完成,下面的程序对前面的手写数字数据集,使用主成分分析将其降维到64维,然后可视化分析每个主成分的解释方差,以及主成分的累计方差贡献率,运行程序后可获得可视化图像。

## 对数据进行主成分降维分析
pca = PCA(n_components = 64,  # 获取的主成分数量
          random_state = 123# 设置随机数种子,保证结果的可重复性
## 对数据进行降维
digitX_pca = pca.fit_transform(digitX)

## 可视化分析每个主成分的解释方差和解释方差所占百分比
x = np.arange(digitX_pca.shape[1])+1
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.plot(x,pca.explained_variance_,"r-o")
plt.xlabel("主成分个数")
plt.ylabel("解释方差")
plt.title("解释方差变化情况")
plt.subplot(1,2,2)
plt.plot(x,np.cumsum(pca.explained_variance_ratio_),"b-s")
plt.xlabel("主成分个数")
plt.ylabel("解释方差")
plt.title("累计解释方差贡献率变化情况")
plt.tight_layout()
plt.show()

可以发现:数据中的在大约20个主成分之后,每个主成分的解释方差已经接近于0,而且前20个主成分的原始数据解释能力超过了百分之90,说明从主成分特征中选取其中的前20个即可代表该数据。

针对主成分数据降维的效果,可以使用其前3个主成分,利用可视化的方式,查看算法的数据降维效果。

3: 流形学习——等距映射

流形学习中的等距嵌入降维算法,可以通过Isomap()来完成,下面的程序是通过流形学习,将手写数字数据集降维到3维空间中,然后使用可视化的方式绘制降维后的3D散点图。

## 流形学习将数据降维到3维空间中
isom = Isomap(n_neighbors=5, n_components=3) 
digitX_isom = isom.fit_transform(digitX)
## 在三维空间中可视化前三个特征数据分布散点图
plotdata3D(digitX_isom,digitY,"流形学习特征")

4: t-SNE数据降维

t-SNE降维算法,可以通过TSNE()来完成,下面的程序是通过t-SNE降维算法,将手写数字数据集降维到3维空间中,然后使用可视化的方式绘制降维后的3D散点图。

## t-SNE将数据降维到3维空间中
tsne = TSNE(n_components=3, perplexity=20,
            early_exaggeration=5, random_state=123) 
digitX_tsne = tsne.fit_transform(digitX)
## 在三维空间中可视化前三个特征数据分布散点图
plotdata3D(digitX_tsne,digitY,"TSNE特征")

参考文献:《Python机器学习:基础、算法与实战》作者:孙玉林 出版社:化学工业出版社

欢迎关注我们

欢迎加入我们的QQ交流群获取使用的数据:837977579

欢迎关注我们的微信公众号“Adam大数据分析小站”获取更多内容

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值