【深度学习】数据预处理

Introduction

数据预处理 主要分为 数据归一化PCA/ZCA白化 两种方法。

数据预处理 的 时序位置 在数据扩充之后,模型训练之前:

数据采集 --> 数据标记 --> 数据扩充 --> 数据预处理 --> 模型训练

数据归一化

包括 简单缩放规范化

简单缩放

为了使得最终的数据向量落在 [0,1] 或 [ -1,1] 的区间内(根据数据情况而定)。

在处理自然图像时,我们获得的像素值在 [0,255] 区间中,常用的处理是将这些像素值 直接除以 255,使它们 缩放到 [0,1] 中。

规范化

  1. 操作均值0中心化(zero-center);
  2. 规范化(normalize)。

示例图:
这里写图片描述

去均值 结果图:
这里写图片描述

PCA/ZCA白化

由于 白化 目前已不常用,这里就不展开探究了。

Code

数据归一化 的 具体实现代码 参见我的另一篇文章:图像预处理: 规范化


[1] 图像预处理: 规范化
[2] 数据预处理-UFLDL

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习数据预处理是在将数据输入到模型之前对其进行处理和准备的过程。以下是一些常用的深度学习数据预处理方法: 1. 数据清洗:去除异常值、缺失值和噪声数据,以确保数据的质量和一致性。 2. 特征缩放:对于具有不同量级的特征,可以使用特征缩放技术如归一化(将数据缩放到0-1之间)或标准化(将数据转换为均值为0,标准差为1的分布)来统一特征的范围。 3. 特征编码:将非数值型特征转换为数值型特征。例如,使用独热编码(One-Hot Encoding)将分类变量转化为二进制向量。 4. 特征选择:根据特征的相关性和重要性选择最具代表性的特征。可以使用相关系数、方差阈值或基于模型的方法进行特征选择。 5. 数据增强:通过对原始数据进行变换和扩充,生成更多的训练样本。例如,对图像进行旋转、平移、缩放等操作,以增加模型的鲁棒性。 6. 数据划分:将数据集划分为训练集、验证集和测试集,用于模型的训练、调优和评估。 7. 序列填充和截断:对于序列型数据,可以使用填充技术(如零填充或平均值填充)来补全不完整的序列,或者截断长序列以保持一致性。 8. 数据标准化:对于数值型数据,可以使用标准化技术(如Z-score标准化)使数据具有零均值和单位方差,以便更好地满足模型的要求。 这些方法可以根据具体问题和数据集的特点进行灵活选择和组合,以提高深度学习模型的性能和鲁棒性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值