数据预处理在众多深度学习算法中都起着重要的作用。
一、数据归一化
数据与处理中的第一步是数据归一化,常采用如下方法:
- 简单缩放
- 逐样本消减
- 特征标准化
1、简单缩放
实现目的:目的是为了通过对数据的每一个维度的值进行重新调节(维度之间是相互独立地),使得最重的结果能够落在某一具体的区间内,常用区间为【0,1】【-1,1】*(为什么采用这个区间有待探究)*。
理论原理: ?
实现过程: ??
2、逐样本均值消减(中心化)
如果当数据是相当平稳的(数据每一个维度都服从相同的分布),即可以考虑在每个样本上减去数据的统计平均值。
对于图像,我们常采用此种归一化来一出图像的平均亮度,因为很多情况下图像的亮度对特征提取影响不大,但是对于彩色图像处理时,应避免采用此种方法,因为不同彩色通道中的像素并不都存在平稳性。
3、特征标准化
特征标准化指的是使得数据没一个维度都具有零均值和单位方差,这是在归一化处理中最常使用的。
具体实现:首先计算每一个维度上的均值,之后在每一个维度上都减去该均值,下一步便是在数据的每一维度上除以该维度数据上的标准差。