机器学习系列21:降维

降维(Dimensionality Reduction)可以保持数据在原有特征的基础上对数据进行压缩,从 3D 降到 2D,使得数据的分布情况不发生改变,如下图:

未命名图片.png

降维还有一个作用,就是能更好地可视化数据。比如说,现在有一个数据集,有 50 个特征,如果想通过图像来分析这个数据集,目前是做不到的,因为只能画出三维图像,也就是说特征数为 3。但是如果运用降维,把特征数从 50 降到 3,你就可以画出这个数据集,更好地观察它们之间的联系(毕竟观察图像才有最直观的感受)。

 

目前,最常用的降维算法就是主成分分析算法(Principal Component Analysis)也称为 PCA。它的工作原理是将高维数据投影到低维平面,以便最小化投影误差的平方。例如:现在有一个二维数据,我们使用 PCA,将它投影到一维中,如下图:

未命名图片.png

将所有的黑色叉投影到红色线上,所在的投影就是绿色叉。这么一看是不是跟我们之前学过的线性回归有点相似呢?其实他们两个相差很大,我们先来看线性回归:

未命名图片.png

通过这张图可以看出,线性回归是尽量减小数据集的 y 与假设函数值之间的误差,也就是减小图中蓝色的线段的距离。再来看 PCA:

未命名图片.png

这是尽量减少点到直线的距离,也是图中蓝色线段的长度。通过这两个图做对比,你就能更好地理解这两种算法的区别了。

 

 

 

应用 PCA 的建议

 

应用 PCA 可以减少对内存的使用、加速学习算法的速度、可视化高维数据。但是不要用 PCA 防止过拟合,因为应用 PCA 时,可能会抛弃某些重要的特征。还有一点,不要一上来不管三七二十一就使用 PCA,在使用 PCA 之前,先考虑一下使用 PCA 究竟是为了做什么,如果不用 PCA 是否能够完成任务。

 

 

 

ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。如果想要一起学习机器学习,可以关注微信公众号「SuperFeng」,期待与你的相遇。

请关注公众号.PNG

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值