《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!
01
—
回顾
到现在,已经总结了机器学习的:
回归算法之最小二乘方,脊回归,套索回归;
分类算法之逻辑回归,决策树分类,朴素贝叶斯决策,半朴素贝叶斯决策
聚类算法之高斯混合模型,解决这个模型选择了期望最大算法(EM算法)
介绍的以上算法都带有详细的原理介绍,例子阐述,代码实现(大部分都是自己编写不掉sklearn的包)
体会了机器学习的基本回归,分类,聚类到底是怎么回事后,该到了分析喂给这些算法的数据了,我们在之前介绍这些算法时,往往用到的数据都是已经预处理过的,比如做了归一化处理,做了降维处理等等。数据预处理做的好与坏,对我们最终问题的求解也是至关重要的,因此也是机器学习学习中的重要一个环节。
废话少说,下面介绍一个数据预处理常用的方法:数据主成分分析,简称PCA。
02
—
数据主成分分析的背景
现实中,我们要研究某个问题,比如预测一只股票的价格时,我们不想忽略每一个可能的影响因素,所以初步划定了100个影响股票价格的特征,再分析最近五年的这只股票的价格数据。这样多维度,大样本,会为预测股票的价格增加更多的筹码。
但是,这么多的维度一来给分析带来不便,二来某些维度可能存在相关性