机器学习(五)降维技术---主成分分析、因子分析
降维(处理线性问题为主)
一提到降维这个词,大家可能就会觉得非常高大上,到底是什么东西呢?降维通俗来讲就是把原先多个指标的计算降维为少量几个经过优化指标的计算,可能大家还是不理解,举个例子就是本来拿来参加建模的特征有100个,但是太多了,经过一些特征的一些组合变换衍生出一些新的特征变量,取对结果影响比较大的一些新的特征变量,现在问题就可以从一开始100个特征变为现在的3到5个特征。需要注意的是新衍生的特征变量一般是100个原始特征向量的线性组合。一般做了降维技术自然地多重共线性也就消除了,不需要额外做多重共线性内容
降维一般对于回归、分类、聚类都适用,那一般降维都有什么方法呢?
- 主成分分析
- 因子分析
降维技术和之前的Lasso和岭回归有什么区别呢?
Lasso和岭回归:没有对变量进行线性组合出新变量,直接舍弃一些原始变量建模
降维技术:不舍弃原始变量,直接对原始特征线性组合出新特征变量
主成分分析
下面我们下先来学习一下主成分分析,简单来说就是n个特征向量空间里面找一些方向,使得这些方向上数据的方差最大
简单来说就是先求方差矩阵之后转换为相关系数矩阵,再求特征值、特征向量、看累计贡献率选出3-5个维度、查看这些维度的载荷(由原始特征如何线性组成)、用这些新的维度去建模,假如模型拟合很好,用业务解释这几个维度(主成分分析是从数学角度去解决问题,业务解释性不强)
这些方向就是新的特征向量(也就是新的维度),之后用n个特征向量空间解释,转化为n个特征的线性组合
为什么这样考虑呢?
假如某一个特征全是0,另一个特征取值多种多样,显然特征全是0的对我们模型意义不大,其数据差异小,如何衡量数据差异呢?用方差。
主成分分析的几何图,如图F1的方差(截距明显比F2长)比F2的大,所以F2可以考虑舍弃,其中F1和F2是新衍生出的维度
主成分分析的数学模型(理论性强,