mixup: BEYOND EMPIRICAL RISK MINIMIZATION 小笔记

最新推荐文章于 2022-09-29 20:37:26 发布

哇哇九号

最新推荐文章于 2022-09-29 20:37:26 发布

阅读量1.1k

点赞数 1

分类专栏：数据增强深度学习文章标签：深度学习数据建模

转载请注明

本文链接：https://blog.csdn.net/bengyanluo1542/article/details/121645894

版权

深度学习同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

本文介绍了MixUp数据增强技术，它通过线性组合训练样本来扩展数据分布，以增强模型的泛化能力并降低过拟合风险。实验表明，MixUp能提高模型精度，特别是在大型模型和长时间训练中效果更佳，同时具有正则化效果，增强模型对对抗样本的鲁棒性，并且简单地在mini_batch内混合样本就能取得良好效果。此外，MixUp还能稳定GAN网络的训练。

摘要由CSDN通过智能技术生成

概述

文章指出一些成功的神经网络所有的两个共同点：首先是会拟合一个训练集，其次是模型规模随着数据集样本增多而增大。同时也指出一些问题：一是尽管在很强的正则化下，模型也可以记住训练数据，而不是根据泛化得到；二是模型容易被对抗样本攻击。

方法

因此提出MixUp数据增强方法：

Mixup使用公式

其中x, y是数据集中的随机样本。

MixUp作用理解

MixUp扩展了训练数据集的分布，相当于告诉模型，训练样本的线性组合，对应的gt也是线性组合，让模型认为样本间的区域也应该是线性区域，降低了模型在训练样本分布区域中间可能的过拟合震荡。

实验发现

在具体实现上，作者也发现组合更多的样本并没有带来性能提升，反而增加了计算量；并且只使用一个data_loader，在一个mini_batch里面随机进行样本组合效果也良好。

另外的一些发现，例如α值在[0.1, 0.4]之间时提升了模型性能，否则可能造成欠拟合；更大的模型或者更长时间的训练更有可能在MixUp中受益；MixUp和dropout的组合进一步提升了泛化性能，达到了更强的正则化的效果；增大α将增大训练损失，但对泛化性能提升有帮助。

实验结果

最终的实验结果，主要验证了几个现象：

MixUp提升了分类模型精度指标；
更大的模型或者更长时间的训练更有可能从MixUp中获益；
MixUp有正则化的作用；
MixUp还能提升GAN网络训练的稳定性；
这种线性组合效果已经足够好，其它的组合方式还不如这种简单的两个随机样本的线性组合。

在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

哇哇九号 您的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。