数据预处理

最新推荐文章于 2024-06-28 14:09:12 发布

OscarMind

最新推荐文章于 2024-06-28 14:09:12 发布

阅读量652

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DeepOscar/article/details/89112273

版权

机器学习专栏收录该内容

38 篇文章 0 订阅

订阅专栏

1. 中心化

数据预处理中一个最常见的处理办法就是每个特征维度减去相应的均值实现中心化，这样可以使得数据变成0均值，特别对于一些图像数据，为了方便我们将所有的数据都减去一个相同的值。

2.标准化

使得数据都变成0均值之后，还需要使用标准化的做法让数据不同的特征维度都有着相同的规模。有两种常用的方法：一种是除以标准差，这样可以使得新数据的分布接近标准高斯分布：还有一种常用的做法就是让每个特征维度的最大值和最小值按照比例缩小到-1~1之间。

如果知道输入不同特征有着不同的规模，那就需要使用标准化的方法让他们处于同一个规模下，这对于机器学习而言非常重要。

3.PCA

PCA是一种处理数据的方法，在进行这一步之前，首先要将数据中心化，然后计算数据的协方差矩阵，这一步非常简单。协方差矩阵是半正定的，可以通过这个协方差矩阵来进行奇异值分解（SVD），然后对数据进行去相关性，将其投影到一个特征空间，我们能够取一些较大的，主要特征向量来减低数据的维度，去掉一些没有方差的维度。

4.白噪声

白噪声也是一种处理数据的方式，首先会跟PCA一样将数据投影到一个特征空间，然后每个维度除以特征值来标准化这些数据，直观上就是一个多元高斯分布转化到了一个0均值，协方差为1的多元高斯分布

上图形象的展示了PCA白噪声处理之后的效果，但是白噪声的处理会增强数据中的噪声，因为其增强了数据的所有维度，包括了一些方差较小的不相关的维度。

在实际处理数据中，中心化和标准化都特别重要。我们计算训练集的统计量比如均值，然后将这些统计量应用到测试集和验证集当中。但是PCA和白噪声在卷积中基本不用，因为卷积网络可以自动学习如何提取这些特征而不需要人工干预。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据预处理

1. 中心化数据预处理中一个最常见的处理办法就是每个特征维度减去相应的均值实现中心化，这样可以使得数据变成0均值，特别对于一些图像数据，为了方便我们将所有的数据都减去一个相同的值。2.标准化使得数据都变成0均值之后，还需要使用标准化的做法让数据不同的特征维度都有着相同的规模。有两种常用的方法：一种是除以标准差，这样可以使得新数据的分布接近标准高斯分布：还有一种常用的做法就是让每个特征维...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。