深度学习之数据预处理

最新推荐文章于 2025-03-27 13:17:03 发布

有为少年

最新推荐文章于 2025-03-27 13:17:03 发布

阅读量6.3k

点赞数 5

分类专栏：深度学习文章标签：数据预处理深度学习机器学习

本文链接：https://blog.csdn.net/P_LarT/article/details/84666624

版权

深度学习专栏收录该内容

153 篇文章

订阅专栏

文章目录

数据预处理

数据预处理

https://www.yuque.com/lart/ml-newer

版本号	作者	时间	改动内容
0.1	Lart	2018年10月17日	创建文档
0.2	Lart	2018年10月18日10:55:22	调整结构
0.3	Lart	2018年10月18日11:26:14	补充保存数据的内容

数据预处理

数据归一化

虽然这里有一系列可行的方法,但是这一步通常是根据数据的具体情况而明确选择的. 这一方法对诸如自然图像这类数据是有效的,但对非平稳的数据则不然.特征归一化常用的方法包含如下几种：

简单缩放

通过对数据的每一个维度的值进行重新调节(这些维度可能是相互独立的),使得最终的数据向量 落在 [0,1]或[ -1,1] 的区间内(根据数据情况而定).这对后续的处理十分重要,因为很多默认参数(如 PCA-白化中的 epsilon)都假定数据已被缩放到合理区间.

例子在处理自然图像时,我们获得的像素值在 [0,255] 区间中,常用的处理是将这些像素值除以 255,使它们缩放到 [0,1] 中.
逐样本均值消减(也称为移除直流分量)

前提：数据要求是平稳的.
对于每个图像样本,减去各自各个通道上的整幅图像的均值.
因为具体来说,是因为不同色彩通道中的像素并不都存在平稳特性.

例子在实验中,在ZCA whitening前进行数据预处理时,每列代表一个样本,但为什么是对patches每一维度0均值化?
(具体做法是：首先计算每一个维度上数据的均值,使用全体数据计算,之后再每一个维度上都减去该均值)
而以前的实验都是对每个样本整体进行0均值化(即：逐样本均值消减)?
1. 因为以前是灰度图,现在是RGB彩色图像,如果现在对每列平均就是对三个通道求平均,这肯定不行.因为不同色彩通道中的像素并不都存在平稳特性,而要进行逐样本均值消减(即：单独每个样本0均值化)有一个必须满足的前提：该数据是平稳的.
2. 因为以前是自然图像,自然图像中像素之间的统计特性都一样,有一定的相关性,而现在是人工分割的图像块,没有这种特性.
特征标准化(使数据集中所有特征都具有 零均值和单位方差)

独立地使得数据的每一个维度具有零均值和单位方差.
这是归一化中最常见的方法并被广泛地使用.

特征标准化的具体做法是：
1. 首先 计算每一个维度上数据的均值 (使用全体数据计算)
2. 之后在 每一个维度上都减去该均值
3. 下一步便是在数据的 每一维度上除以该维度上数据的标准差.
例子
- 在使用支持向量机(SVM)时,特征标准化常被建议用作预处理的一部分.
- 处理音频数据时,常用 Mel 倒频系数 MFCCs 来表征数据.然而MFCC特征的第一个分量(表示直流分量)数值太大,常常会掩盖其他分量.这种情况下,为了平衡各个分量的影响,通常对特征的每个分量独立地使用标准化处理.

白化(协方差矩阵为单位矩阵)

https://blog.csdn.net/danieljianfeng/article/details/42147109

白化可以降低输入的冗余性,降低特征之间的相关性,使得所有的特征具有相同的方差.

在做完简单的归一化后,白化通常会被用来作为接下来的预处理步骤,它会使我们的算法工作得更好.实际上许多深度学习算法都依赖于白化来获得好的特征.

在进行白化时,首先使 特征零均值化 是很有必要的.

白化处理分PCA白化和ZCA白化.

PCA白化先PCA进行 基转换 ,降低数据的相关性,再对每个输入特征进行__缩放__(除以各自的特征值的开方),以获得单位方差.此时的协方差矩阵为单位矩阵I.
ZCA白化 ZCA白化只是在 PCA白化 的基础上做了一个 逆映射操作 ,使数据转换为原始基下,使得白化之后的数据更加的接近原始数据.

ZCA白化首先通过PCA去除了各个特征之间的相关性,然后使得输入特征具有相同方差,此时得到PCA白化后的处理结果.然后再把数据旋转回去,得到ZCA白化的处理结果.

二者的差异:

PCA白化保证数据各维度的方差为1,ZCA白化保证数据各维度的 方差相同
PCA白化可以用于降维也可以去相关性,而ZCA白化主要用于去相关性,且尽量使白化后的数据__接近原始输入数据__.

# 假设输入数据矩阵X的尺寸为[N x D]
X -= np.mean(X, axis = 0) # 对数据进行零中心化(重要)
cov = np.dot(X.T, X) / X.shape[0] # 得到数据的协方差矩阵
U,S,V = np.linalg.svd(cov)
Xrot = np.dot(X, U) # 对数据去相关性

# 对数据进行白化操作 除以特征值->PCA白化
Xwhite = Xrot / np.sqrt(S + 1e-5)

# 转换为原始基->ZCA白化
Xzcawhite = np.dot(Xwhite, U.T)

注意对于大图像,采用基于 PCA/ZCA 的白化方法是不切实际的,因为协方差矩阵太大.在这些情况下我们退而使用 1/f 白化方法.

接下来在 PCA/ZCA 白化中我们需要选择合适的 epsilon（回忆一下,这是规则化项,对数据有低通滤波作用）. 选取合适的 epsilon 值对特征学习起着很大作用,这里可以看ML预处理.md文档 PCA/ZCA白化一节.

实际建议

在卷积神经网络中并不会采用这些PCA以及白化变换.然而对数据进行零中心化操作还是非常重要的,对每个像素进行归一化也很常见.

在这一部分中,我们将介绍几种在一些数据集上有良好表现的预处理标准流程.

自然灰度图像

均值消减->PCS/ZCA白化

灰度图像具有平稳特性,通常在第一步对每个数据样本分别做均值消减(即减去直流分量),然后采用 PCA/ZCA 白化处理.

其中的 epsilon 要__足够大以达到低通滤波__的效果.

彩色图像

分通道均值消减->PCA/ZCA白化

对于彩色图像,色彩通道间并不存在平稳特性.通常需要分通道均值消减,并且对数据进行特征缩放(使像素值位于 [0,1] 区间).

使用足够大的 epsilon 来做 PCA/ZCA.

音频 (MFCC/频谱图)

特征标准化->PCA/ZCA 白化

对于音频数据 (MFCC 和频谱图),每一维度的取值范围(方差)不同.

即使得数据的每一维度均值为0、方差为1,然后进行PCA/ZCA白化(使用合适的 epsilon).

MNIST 手写数字

简单缩放/逐样本均值消减(->PCA/ZCA 白化)

MNIST 数据集的像素值在 [0,255] 区间中.我们首先将其缩放到 [0,1] 区间.

实际上,进行逐样本均值消去也有助于特征学习.

注：也可选择以对 MNIST 进行 PCA/ZCA 白化,但这在实践中不常用.

one-hot独热编码(离散数据)

独热编码即 One-Hot 编码,又称一位有效编码,其方法是__使用N位状态寄存器来对N个状态进行编码__,每个状态都由他独立的寄存器位,并且__在任意时候,其中只有一位有效__.

可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征.并且,这些特征互斥,每次只有一个激活.因此,数据会变成稀疏的.

稀疏数据相比密集数据而言,对于计算机加载处理也更为有优势.

这样做的好处主要有：

解决了分类器不好处理属性数据的问题
在一定程度上也起到了扩充特征的作用

实际建议

对于标签数据可以转化为独热编码形式,这对于网络的分类输出而言,是更为实际的表达形式.

from keras.utils import np_utils
...
Y_train = np_utils.to_categorical(y_train, num_classes)

而对于真实的类别序号可以通过使用NumPy argmax() 函数来找到(这里的查找,也不一定对one-hot后的数据进行查找,对于得分数据亦可以,对于softmax计算后的也可以,因为是增函数).

数据增强(数据量有限)

https://blog.csdn.net/mzpmzk/article/details/80039481
https://blog.csdn.net/u010555688/article/details/60757932?utm_source=blogxgwz1

深层神经网络一般都需要大量的训练数据才能获得比较理想的结果。在 数据量有限的情况 下，可以通过数据增强（Data Augmentation）来增加训练样本的多样性，提高模型鲁棒性，避免过拟合。

图片数据增强通常只是针对训练数据，对于测试数据则用得较少。测试数据常用的是：做 5 次随机剪裁，然后将 5 张图片的预测结果做均值。

常用手段:

翻转flip
旋转rotation
平移shift
缩放resize/尺度变换Random Scale
随机裁剪或补零Random Crop or Pad
色彩抖动Color jittering:HSV颜色空间随机改变图像原有的饱和度和明度（即，改变 S 和 V 通道的值）或对色调(Hue)进行小范围微调。
对比度变换contrast:在图像的HSV颜色空间，改变饱和度S和V亮度分量，保持色调H不变. 对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间), 增加光照变化;
PCA抖动PCA Jittering：首先按照RGB三个颜色通道计算均值和标准差，再在整个训练集上计算协方差矩阵，进行特征分解，得到特征向量和特征值，用来做PCA Jittering；
加噪声（Noise）
特殊的数据增强方法：
- Fancy PCA（Alexnet）& 监督式数据扩充（海康）
- 使用生成对抗网络（GAN）生成模拟图像

保存数据

将训练集数据/标签,以及测试数据(可能有的标签),都事先处理后, 并转化好 .npy 或者其他的整合的数据文件, 便于后期的分布处理,而且也可以减少训练过程在读入数据上的处理时间.

https://gist.github.com/lartpang/e2343fb06f25b36a8af03e68923dea06

补充

处理离散型特征和连续型特征并存的情况时,必须进行特征的归一化,每个特征都单独进行归一化.对于连续型特征归一化的常用方法是放缩后标准化,对于离散的特征基本就是按照one-hot编码,该离散特征有多少取值,就用多少维来表示该特征.
基于树的方法是不需要进行特征的归一化,例如随机森林, bagging 和 boosting等.基于参数的模型或基于距离的模型,都是要进行特征的归一化.
进行预处理很重要的一点是：任何预处理策略（比如数据均值）都 只能在训练集数据上进行计算,算法训练完毕后再应用到验证集或者测试集上。

例子如果先计算整个数据集图像的平均值然后每张图片都减去平均值，最后将整个数据集分成训练/验证/测试集，那么这个做法是错误的。应该怎么做呢？应该先分成训练/验证/测试集，只是从训练集中求图片平均值，然后各个集（训练/验证/测试集）中的图像再减去这个平均值。
对于神经网络模型而言,图片需要进行预处理的原因：
1. 适应神经网络结构：网络结构可以接收的数据格式/类型是固定的，因此在训练过程之前，需要将训练样本预处理成为可以被神经网络读取的格式/类型；
2. 对训练样本进行提纯：训练样本中可能存在“不好的数据”，通过预处理手段，可以将这部分数据剔除掉，或者消除掉它的影响,训练图片是越“纯”越好，也就是让网络只关注你想让它记住的；
3. 进行数据增强：对训练样本进行预处理，可以增加数据的多样性。例如通过旋转、镜像、裁切等手段，将图片的空间多样性呈现出来，据此训练出来的模型也将具有更好的鲁棒性,可以提升泛化能力.
  数据增强的目的是增加样本数量，这在数据很少的情况下是非常有效的，Caffe自己的数据输入层自带裁剪、镜像等功能，一般做法是把训练数据放大到输入尺寸的1.1倍左右，然后随机裁剪到输入尺寸，这个效果非常好。
  不好的数据增强容易带来模型过拟合，因为我们只是增加了数据并非泛化了数据分布；
4. 数据归一化：预处理可以将不同规格的数据转换成相同规格的训练数据，最典型的的例子就是图片的尺寸归一化。
  上面提到的减均值除以方差的方式，在Batch Normalization(BN)出现之前是很有必要的，因为这样拉到均值附近，学习的时候更加容易，毕竟激活函数是以均值为中心的，学习到这个位置才能将不同的类分开。
  但是__BN出现之后，这个操作就完全没必要__了，因为每次卷积后都有BN操作，BN就是把数据拉到0均值1方差的分布，而且这个均值和方差是动态统计的，不是只在原始输入上统计，因此更加准确。即采用BN后该预处理无必要。
5. 压缩数据体积：预处理还可以减小训练数据的尺寸。例如原始数据是FHD尺寸的，若压缩至QQVGA则会大幅缩减数据体积;
6. 将数据处理为某种组织形式的存储格式，比如tfrecord，这是为了加速训练，这一步可不得小觑，大的模型训练是非常耗时的，提前做预处理可节省不少时间还可降低对设备内存要求等；
7. 如果训练数据存在极度不均衡情况，那么需要做图像预处理，欠采样或过采样或补充，目的是不让模型结果偏向于数据大的类别；