机器学习数据降维方法总结（附python代码）

最新推荐文章于 2024-04-03 01:35:57 发布

python语音识别-公众号

最新推荐文章于 2024-04-03 01:35:57 发布

阅读量6.5k

点赞数 6

文章标签： python 机器学习数据降维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37700507/article/details/84672440

版权

本文总结了机器学习中数据降维的方法，包括缺失值比例、低方差滤波器、高相关性滤波器、随机森林、反向特征消除、PCA和ICA。降维能减少计算复杂度，提升模型训练效率和准确性，便于数据可视化。通过Python代码示例展示了如何实现这些方法。

摘要由CSDN通过智能技术生成

介绍

在机器学习实战时，如果面对一个数据集具有上千个特征，那么对于模型训练将是一个巨大的挑战。面对如此多的数据变量，如果我们认真的去分析每一个变量将耗费我们几周甚至几个月的时间，那么你估计也要被开除了。因此我们需要一个更好的方法能够帮助我们在高维数据中筛选出对我们有用的变量，减小计算复杂度提高模型训练效率和准确率，这就是我们要说的降维。

降维分析

在网络时代，每天都要产生巨大数量的数据，事实上，世界上近90%的数据是近3年来产生的。我们通过几个例子来看数据的爆炸式增长：

Facebook收集用户的爱好、参观的地方、分享的东西以及喜欢的餐馆数据
智能手机应用软件收集你的个人信息数据
Amazon收集你在网站浏览、点击、购买的商品信息等等

在如此数量级的数据中如何将数据可视化以及挖掘数据的内在信息价值将成为一个重要的问题。最常用的数据可视化方法就是图表，假设我们有身高和年龄2个变量，我们可以在二维坐标系中使用散点图或者折线图表示它们的关系：

那么如果我们有100个变量，我们就需要100x(100-1)/2幅图才能表示出其中两个变量之间的关系。这是非常不切实际的。更聪明的做法是挑选出其中更有价值的变量来研究它们的关系。比如说像下面这幅图

在图中有两个关于体重的变量，x1是kg，x2是英镑，这两个变量都表示一个人的体重信息，那么我们就可以选取其中一个作为我们要使用的变量即可，这样就将二维变成了一维。

同样的，在高维数据

最低0.47元/天解锁文章

python语音识别-公众号

关注

6
点赞
踩
75

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。