数据预处理规则

数据预处理在深度学习中至关重要,包括数据归一化、PCA和ZCA白化等步骤。归一化常用方法有简单缩放、逐样本均值消减和特征标准化。PCA和ZCA白化有助于降低噪声,PCA中选择合适的epsilon至关重要,对基于重构和正交化ICA的模型有不同的考虑。预处理参数需依据数据特性和模型类型调整。
摘要由CSDN通过智能技术生成

     数据预处理在众多深度学习算法中都起着重要作用。实际情况中,将数据做归一化和白化处理后,很多算法能够发挥最佳效果。但是预处理的精确参数并非显而易见,一般需要尝试。


1.数据归一化

     数据预处理中标准的第一步是数据归一化。这一步通常视具体情况选择。归一化的一般方法有如下3种:

       1.简单缩放
       2.逐样本均值消减(也称为移除直流分量)
       3.特征标准化(使数据集中所有特征都具有零均值和单位方差)


1.1简单缩放

    目的是通过对数据的每一个维度的值进行重新调节(这些维度可能是相互独立的),使得最终的数据向量落在 [0,1][ − 1,1] 的区间内(根据数据情况而定)。这对后续的处理十分重要,因为很多默认参数(如 PCA-白化中的 epsilon)都假定数据已被缩放到合理区间。

    例如在处理自然图像时,我们获得的像素值在 [0,255] 区间中,常用的处理是将这些像素值除以 255,使它们缩放到 [0,1] 中。

     Matlab函数mapminmax: x为向量。[y,ps]=mapminmax(x)。默认映射范围为[-1,1]。ps为映射规则,y为映射结果。可以对ps进行设置 ps.ymin和ps.ymax。然后进行自定义范围映射,当然可以把对本样本的ps规则应用到其他样本,如[y,ps]=mapminmax['apply',x1,ps]。实际映射方程y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin。

     其他的缩放机制还有atan,log等。具体参考常见的样本数据归一化


1.2逐样本均值消减 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值