数据降维

为什么要降维?

在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个 方面的问题:

  • 数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定, 从而导致模型的泛化能力弱;

  • 高纬空间样本具有稀疏性,导致模型比较难找到数据特征;

  • 过多的变量会妨碍模型查找规律;

  • 仅仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系。

    通过特征选择/降维的目的是:

  • 减少特征属性的个数

  • 确保特征属性之间是相互独立的

当然有时候也存在特征矩阵过大, 导致计算量比较大,训练时间长的问题

常用的降维方法有:

  • PCA

  • LDA

  • 主题模型进行降维

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值