机器学习(五)降维技术---主成分分析、因子分析

降维技术通过线性组合原始特征,减少数据维度,例如主成分分析(PCA)和因子分析。PCA寻找方差最大的新特征方向,而因子分析更注重业务解释。降维适用于回归、分类和聚类任务,但需注意特征标准化。在实际应用中,应结合业务解释新特征。
摘要由CSDN通过智能技术生成

机器学习(五)降维技术---主成分分析、因子分析

 

降维(处理线性问题为主)

一提到降维这个词,大家可能就会觉得非常高大上,到底是什么东西呢?降维通俗来讲就是把原先多个指标的计算降维为少量几个经过优化指标的计算,可能大家还是不理解,举个例子就是本来拿来参加建模的特征有100个,但是太多了,经过一些特征的一些组合变换衍生出一些新的特征变量,取对结果影响比较大的一些新的特征变量,现在问题就可以从一开始100个特征变为现在的3到5个特征。需要注意的是新衍生的特征变量一般是100个原始特征向量的线性组合。一般做了降维技术自然地多重共线性也就消除了,不需要额外做多重共线性内容

降维一般对于回归、分类、聚类都适用,那一般降维都有什么方法呢?

  • 主成分分析
  • 因子分析

 

降维技术和之前的Lasso和岭回归有什么区别呢?

Lasso和岭回归:没有对变量进行线性组合出新变量,直接舍弃一些原始变量建模

降维技术:不舍弃原始变量,直接对原始特征线性组合出新特征变量

 

主成分分析

下面我们下先来学习一下主成分分析,简单来说就是n个特征向量空间里面找一些方向,使得这些方向上数据的方差最大

简单来说就是先求方差矩阵之后转换为相关系数矩阵,再求特征值、特征向量、看累计贡献率选出3-5个维度、查看这些维度的载荷(由原始特征如何线性组成)、用这些新的维度去建模,假如模型拟合很好,用业务解释这几个维度(主成分分析是从数学角度去解决问题,业务解释性不强)

这些方向就是新的特征向量(也就是新的维度),之后用n个特征向量空间解释,转化为n个特征的线性组合

为什么这样考虑呢?

假如某一个特征全是0,另一个特征取值多种多样,显然特征全是0的对我们模型意义不大,其数据差异小,如何衡量数据差异呢?用方差。

主成分分析的几何图,如图F1的方差(截距明显比F2长)比F2的大,所以F2可以考虑舍弃,其中F1和F2是新衍生出的维度

主成分分析的数学模型(理论性强,

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路易三十六

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值