数据增强 data augmentation
目的:
-
避免过拟合 当数据集具有某种明显特征时 例如实在同一个场景里面拍摄的 使用Cutout等方法可以避免模型学到跟目标无关的信息
-
提升模型鲁棒性
-
增加训练数据,提高模型泛化能力
-
避免样本不均衡
常用的方法:
几何变换——翻转,旋转,裁剪,缩放,平移,抖动。
像素变换——加噪声,进行高斯模糊,调整HSV对比度,调节亮度,饱和度等等
具体方法:
Mixup Cutmix:可用于分类任务
补充知识:one-hot编码 独热编码 一位有效编码 词袋模型
举例说明:
优点:便于处理离散数据
可以进行扩充特征
缺点🍶 词袋模型并不考虑词与词的顺序🇼🇫
特征是离散稀疏的
Mixup: 为了解决经验风险最小化 ERM 强行记住训练数据
https://arxiv.org/abs/1710.09412,提出了mixup
Cutout
在ResNet的基础上 意思是CutMix的效果最好
接着讲回数据增强
还有一种增强方法是GridMask
还有一些网络中的增强 例如DropOut DropConnect等
文本有关的数据增强
EDA简单且有效 包括随机替换,随机插入,随机交换,随机删除
AEDA 在句子中间添加标点符号一次来增强数据
Back Translation 回译 先翻译成其他语言 在翻译回来
MLM 掩码语言模型 利用与训练好的BERT Roberta 对句子进行部分掩码,然后让模型预测掩码部分
总结:
data augmentation 多为对原始数据的简单变换,包括旋转 翻转 向量加在一块 随机的替换或者遮挡,用于生成更多数据,增强模型精确率。