mixup：BEYOND EMPIRICAL RISK MINIMIZATION 阅读笔记

最新推荐文章于 2024-07-23 19:01:52 发布

print_lzp

最新推荐文章于 2024-07-23 19:01:52 发布

阅读量646

点赞数

分类专栏：论文阅读笔记文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/print_lzp/article/details/121140207

版权

论文阅读笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

简介：
大型深度神经网络是非常强大的，但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想
因而作者提出了一种一个简单地减缓两种问题的方案。研究结果表明，mixup可以改进当前最先进的神经网络架构的泛化能力。mixup还能够减少对错误标签的记忆，增加对抗样本的鲁棒性，并能够稳定对生成对抗网络的训练过程。
mixup 和上一篇像素平均的方法类似，构建了虚拟的训练样本，即构建为训练集中的两个随机样本及其标签的线性插值，mixup有助于有助于消除对错误标签的记忆、对对抗样本的敏感性以及对抗训练的不稳定性。
从训练样本中随机抽取两个样本进行简单的随机加权求和，同时样本的标签也对应加权求和，然后预测结果与加权求和之后的标签求损失，在反向求导更新参数。
在这里插入图片描述
代码实现：

关于lable线性加权，引用作者的回答：
Q: label线性加权后，不是得到了这两个样本中间的类别了吗？
A: label用的是one-hot vector编码，可以理解为对k个类别的每个类给出样本属于该类的概率。加权以后就变成了"two-hot"，也就是认为样本同时属于混合前的两个类别。
另一种视角是不混合label，而是用加权的输入在两个label上分别计算cross-entropy loss，最后把两个loss加权作为最终的loss。由于cross-entropy loss的性质，这种做法和把label线性加权是等价的，大家可以自行思考一下。

print_lzp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mixup：BEYOND EMPIRICAL RISK MINIMIZATION 阅读笔记

简介：大型深度神经网络是非常强大的，但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想因而作者提出了一种一个简单地减缓两种问题的方案。研究结果表明，mixup可以改进当前最先进的神经网络架构的泛化能力。mixup还能够减少对错误标签的记忆，增加对抗样本的鲁棒性，并能够稳定对生成对抗网络的训练过程。mixup 和上一篇像素平均的方法类似，构建了虚拟的训练样本，即构建为训练集中的两个随机样本及其标签的线性插值，mixup有助于有助于消除对错误标签的记忆、对对抗样本的敏感性以及对抗训练的不稳定性。从训练
复制链接

扫一扫