一张图总结机器学习降维算法

在这里插入图片描述
一些问题
减少数据集维度的主要动机是什么?主要缺点是什么?

  • 加速训练算法、将数据可视化、节省空间。
  • 丢失部分信息、为机器学习流水线增添了些许复杂度、转化后的特征往往难以理解。

维度的诅咒是什么?

  • 许多在低维空间中不存在的问题,在高维空间中发生。在机器学习领域,一个常见的现象是随机抽样的高维向量通常非常稀疏,提升了过拟合的风险,同时也使得在没有充足训练数据的情况下,要识别数据中的模式非常困难。

一旦降低了数据集的维度,是否可以你操作?如果可以,怎么做?如果不能,为什么?

  • 几乎不可能再将操作完美的逆转,因为在降温过程中必然丢失了一部分信息。此外,虽然有一些算法拥有简单的逆转换过程,可以重建出与原始数据集相似的数据集,但是也有一些算法不能实现逆转。

你可以使用PCA来减少高度非线性的数据集的维度吗?

  • 对于大多数数据集来说,PCA可以用来进行显著降维,即使是高度非线性的数据集。但是如果不存在无用的纬度(瑞士卷),那么使用PCA降维将会损失太多信息。

在什么情况下你将使用常规PCA?增量PCA?随机PCA内核PCA

  • 常规PCA是默认选择,但是他仅适用于内存足够处理训练集的时候。
  • 增量PCA对于内存无法支持的大型数据集非常有用,但是他比常规PCA要慢一些。所以内存如果能够支持,还是应该使用常规PCA。当你随时需要应用PCA来处理每次新增的实例时,增量PCA对于在线任务同样有用。
  • 当你想大大降低维度数量,并且内存能够支持数据集时,使用随机PCA非常有效,他比常规PCA快得多。
  • 对于非线性数据集,使用核化PCA非常有效。

如何评估数据集中的降维算法的性能?

  • 进行衡量的方法之一是应用逆转换,然后测量重建误差。
  • 还有另一种选择,如果你将降为当做一个逆处理过程,用在其他机器学习算法之前。那么可以通过简单测量第二个算法的性能来进行评估。

链接两个不同的降维算法是否有意义?

  • 有意义。比如使用PCA快速去除大量无用的纬度,然后应用另一种更慢的降维算法LLE,这种两步走的策略产生的结果可能与仅使用LLE相同,但是时间要短得多。

其他降维见之前的李宏毅学习笔记

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王蒟蒻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值