机器学习 -- PCA(Ⅵ 使用PCA降噪)

回顾之前的案例:

        数据集展现出如上结果,可是有没有可能数据集本身就是一条直线。换句话说,这个数据集展现的是在一根直线上下进行抖动式的分布,实际上这种抖动和这根直线本身的距离是噪音。这个噪音的产生原因可能有很多,如测量人员的粗心,测量手段有问题等等原因,都会使得我们在现实世界中采集的数据是有噪音的。

        我们使用PCA进行降维然后在反转回原来的维度,经过这样一个操作,可以发现此时这个数据就成为了一条直线,比较一下这两个图,我们可以说,经过这样的操作,我们将原有数据集的噪音给消除了。当然,在实际情况下,我们不好说X_restore就是一点噪音都没有,也不好说原数据的所有的抖动全都是噪音,所以我们还是倾向于说从X到X_restore丢失了一些信息,不过我们丢失的信息很有可能有很大的一部分是噪音,这也解释了为什么我们有时候降维处理以后,反而识别率提高了。

 

手写识别的例子

(1)首先导入所需的数据集

from sklearn import datasets

digits = datasets.load_digits()
X = digits.data
y = digits.target

(2)给数据加上噪音


                
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值