【Educoder】— 机器学习(PCA第一关)

PCA第一关 — 维数灾难与降维

任务描述

本关任务:根据本节课所学知识完成本关所设置的选择题。

相关知识

为了完成本关任务,你需要掌握维数灾难降维的相关基础知识。

维数灾难

在机器学习中,我们不仅需要学习怎样进行分类、回归或者聚类,我们更要学习怎样对数据进行更好的处理,使得我们的数据能够更好地为我们的机器学习算法服务。而降维就是数据处理中的一环。

说到降维,那首先就要提到一个概念:维数灾难维数灾难其实很好理解,举个例子。

我们现在玩个游戏,我告诉你一些信息,你猜一猜我所描述的是什么。

  • 我:这个在地球上才有,而且是犬科动物。
  • 您:......

如果您现在是一个动物的分类器,我相信您仅仅靠这两个特征(地球上才有,犬科动物)不大可能能够预测出我所说的是什么。也就是说,不管你用什么算法去分类,都很有可能发生欠拟合的现象。

  • 我:这个是犬科动物,喜欢啃骨头,长得像狼, 比较二。
  • 您:哈士奇!
  • 我:猜的挺准。

当我给出的信息比较合适(这次有 4 个特征),您可能能够猜到所提供的特征数据所描述的是哈士奇。这个时候我们的分类算法能正常工作。

  • 我:这个在地球上才有,是犬科动物,有毛,有爪子,体型大,耳尖呈圆形,尾巴喜欢上翘,长得像狼,喜欢啃骨头,有时比较二但挺忠诚。
  • 您:哈士奇!
  • 我:不,我说的是阿拉斯加。
  • 您:......

这次我提供的信息比上面个两次都多(这次有 10 个特征),但是您可能将阿拉斯加误判成哈士奇。因为您可能看到长得像狼和比较二就认为是哈士奇了,也就是发生了过拟合的现象。这也说明了不是说数据的特征数量越多,我们的机器学习算法的效果就越强。当数据的特征数量变大时,可能会造成机器学习算法的模型变得非常复杂,从而导致过拟合。而且如果我所提供的特征数量越多,比如有 10000 个特征,那么模型训练过程中的时间成本会越大。

所以维数灾难通常是指对于已知样本数目,存在一个特征数目的最大值,当实际使用的特征数目超过这个最大值时,机器学习算法的性能不是得到改善,而是退化。

降维

既然维数太大可能引发维数灾难,那么如果能有算法能够自动地帮我们把重要性比较高的特征维度保留下来,把其他的维度过滤掉就好了。那这个过程我们称之为降维

从维数灾难的概念出发,我们就能知道降维的作用了。

  • 降低机器学习算法的时间复杂度
  • 节省了提取不必要特征的开销
  • 缓解因为维数灾难所造成的过拟合现象

编程要求

根据本关所学习到的知识,完成所有选择题。

测试说明

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鹿毅十川

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值