数据增强(data augmentation)

数据增强 data augmentation

目的:

  1. 避免过拟合 当数据集具有某种明显特征时 例如实在同一个场景里面拍摄的 使用Cutout等方法可以避免模型学到跟目标无关的信息

  2. 提升模型鲁棒性

  3. 增加训练数据,提高模型泛化能力

  4. 避免样本不均衡

常用的方法:

几何变换——翻转,旋转,裁剪,缩放,平移,抖动。

像素变换——加噪声,进行高斯模糊,调整HSV对比度,调节亮度,饱和度等等

具体方法:

Mixup Cutmix:可用于分类任务

补充知识:one-hot编码 独热编码 一位有效编码 词袋模型

举例说明:

image-20231118230925676.png

优点:便于处理离散数据

可以进行扩充特征

缺点🍶 词袋模型并不考虑词与词的顺序🇼🇫

特征是离散稀疏的

Mixup: 为了解决经验风险最小化 ERM 强行记住训练数据

https://arxiv.org/abs/1710.09412,提出了mixup

Cutout

image-20231118233712247.png

在ResNet的基础上 意思是CutMix的效果最好

image-20231118233738805.png

接着讲回数据增强

还有一种增强方法是GridMask

还有一些网络中的增强 例如DropOut DropConnect等

文本有关的数据增强

EDA简单且有效 包括随机替换,随机插入,随机交换,随机删除

AEDA 在句子中间添加标点符号一次来增强数据

Back Translation 回译 先翻译成其他语言 在翻译回来

MLM 掩码语言模型 利用与训练好的BERT Roberta 对句子进行部分掩码,然后让模型预测掩码部分

总结:

data augmentation 多为对原始数据的简单变换,包括旋转 翻转 向量加在一块 随机的替换或者遮挡,用于生成更多数据,增强模型精确率。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值