机器学习 - 降维算法概述

1. 维度灾难

在数据挖掘中,特征工程是极其重要的一环,不断寻找特征的过程,就是不断给数据增加维度。通常特征更丰富,算法就更容易捕获数据之间的模式。

1.1 计算量

维度高了之后,计算开始变得非常困难;


1.2 特征干扰

同时特征之间会相互干扰,而不是相互独立,从而影响算法性能;


1.3 过拟合

还有一个很重要的原因是维度高了之后,样本在空间的分布会变得很稀疏,这容易导致过拟合,比如决策树的叶子节点上样本太少


2. 常见降维算法

将样本从高维特征空间映射到低维特征空间;主要参照sklearn - dimension reduce:

1)MDS - multiple dimension scale,多维度缩放;

2)PCA - 主成分分析及其变体,minibatch PCA,kernel PCA,sparse PCA等;

3)SVD - 奇异值分解及其变体,SVD++等等;

4)LSA - 潜在语义分析(本质上是SVD分解);

5)字典学习与稀疏编码;

6)NMF - 非负矩阵分解;

7)LDA - 线性判别分析;

8)factor analysis - 因子分析;

9)ICA - independent component analysis, 独立成分分析


3. 算法性能度量

1)比较降维前后,分类器的性能;

2)降维到三维及以下,可视化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值