机器学习数据预处理:数据降维之PCA

本文介绍了机器学习数据预处理中的PCA(主成分分析)方法。PCA通过捕捉数据的主要成分,降低多维度数据的复杂性,同时减少信息损失。文章通过实例解释了主成分的选取标准,强调了方差在选择过程中的重要性,并预告了PCA操作的具体步骤。
摘要由CSDN通过智能技术生成

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!

01

回顾

到现在,已经总结了机器学习的:
回归算法之最小二乘方,脊回归,套索回归;
分类算法之逻辑回归,决策树分类,朴素贝叶斯决策,半朴素贝叶斯决策
聚类算法之高斯混合模型,解决这个模型选择了期望最大算法(EM算法)
介绍的以上算法都带有详细的原理介绍,例子阐述,代码实现(大部分都是自己编写不掉sklearn的包)

体会了机器学习的基本回归,分类,聚类到底是怎么回事后,该到了分析喂给这些算法的数据了,我们在之前介绍这些算法时,往往用到的数据都是已经预处理过的,比如做了归一化处理,做了降维处理等等。数据预处理做的好与坏,对我们最终问题的求解也是至关重要的,因此也是机器学习学习中的重要一个环节。

废话少说,下面介绍一个数据预处理常用的方法:数据主成分分析,简称PCA。

02

数据主成分分析的背景

现实中,我们要研究某个问题,比如预测一只股票的价格时,我们不想忽略每一个可能的影响因素,所以初步划定了100个影响股票价格的特征,再分析最近五年的这只股票的价格数据。这样多维度,大样本,会为预测股票的价格增加更多的筹码。

但是,这么多的维度一来给分析带来不便,二来某些维度可能存在相关性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值