深度学习算法 数据预处理之数据增强基础

数据增强通过裁剪、旋转、缩放等操作在原始数据上生成更多等价数据,提高深度学习模型的多样性。包括有监督的单样本和多样本增强,如几何和颜色变换,以及无监督的数据增强,如GAN和AutoAugment。此类技术有助于解决样本不平衡问题,提升模型性能和泛化能力。
摘要由CSDN通过智能技术生成

数据增强也叫做数据扩增,就是在不实质上增加原始数据量的情况下,通过裁剪、旋转、缩放、对称等操作,在原有数据上产生更多的等价数据量作为深度学习的数据集。比如裁剪:对于一张256*256的图,裁剪成224*224的图片,可以产生32*32张不同的图片,数据量近似扩充了1000倍(实际情况可能因为图片相似度过高,打些折扣),如果再辅以其他手段,就会有更好的多样性。

数据增强可以分为:有监督的数据增强(又分为单样本和多样本的数据增强方法)和无监督的数据增强(分为生成新的数据和学习增强策略两个方向)。

一、有监督的数据增强

(1)有监督的数据增强,即需要有特定的数据变换规则,对于单样本,可以进行:几何变换类,如翻转(水平、垂直)、旋转(随机)、裁剪(随机)、变形、缩放等操作;颜色变换类,如噪声、模糊、颜色扰动、擦除、填充等。

需要注意的是:1)对于翻转和旋转操作,经常用于对方向不敏感的任务,比如图像分类。裁剪会改变图片的大小,缩放变形会使图片失真。2)通常情况下,网络的训练要求输入的大小固定,当数据集中的图像大小不一时,可以选择裁剪或缩放至网络要求的固定大小的方式,后者因为有失真,效果通常会比前者差。

基于噪声的数据增强就是在原来的图片基础上,随机叠加一些噪声,常用的如高斯噪声,也可以在面积大小选定、位置随机的矩形区域上去除像素产生黑色矩形框,从而产生一些彩色噪声,以Coarse Dropout方法

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习数据预处理的流程大致包括以下几个步骤: 1. 数据采集:数据的来源可以是各种形式,包括传感器、文本、图像、音频等。采集数据的方式也有多种,比如手动标注、爬虫抓取、传感器采集等。 2. 数据清洗:清洗数据是非常重要的一步,因为数据中常常存在噪声、缺失值、异常值等问题,需要进行清理。常用的数据清洗方法包括删除重复数据、填补缺失值、去除异常值、转换数据类型等。 3. 数据标准化:由于数据通常具有不同的规模和单位,需要将数据进行标准化,以便于后续的处理。常用的数据标准化方法包括归一化、标准化、离散化等。 4. 特征提取:特征提取是将原始数据转换为机器学习算法能够理解的形式。常用的特征提取方法包括手工设计特征、基于统计的特征、基于深度学习的特征等。 5. 数据划分:将数据分成训练集、验证集和测试集三部分,以便于模型的训练和评估。一般情况下,训练集用于训练模型,验证集用于调整模型的超参数,测试集用于评估模型的性能。 6. 数据增强数据增强是通过对原始数据进行变换或扩充,来增加数据集的规模和多样性,以提高模型的泛化能力。常用的数据增强方法包括旋转、翻转、裁剪、颜色变换等。 7. 数据存储:处理好的数据可以保存为各种格式,如文本文件、二进制文件、数据库等,以便于后续的使用和分享。 以上是深度学习数据预处理的大致流程,具体的实现方法和步骤可能会有所不同,需要根据具体情况进行调整和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值