SSL相关论文总结(三)

Unsupervised Data Augmentation for Consistency Training

这是谷歌的一篇有关无监督数据增强的论文,注意这里是用于一致性训练的,也就是说数据集中既有unlabelled data也有labelled data,根据之前的伪标签论文,我们可以大概对这样的一致性训练有一定的认识:基本上可以认为unlabelled data部分将作为一致性损失加到总的损失函数里。

前言

我去年第一次看的时候觉得这篇论文就只是枚举一些高效的UDA方法,但是二刷的时候,也是有了更深的理解,我觉得这篇论文的逻辑还是很清晰的。


一、研究方向

在文章的一开始,作者就对现今半监督的研究做了一个分类:
①通过图卷积和图嵌入进行基于图的标记传播(图网络没学过);
②潜变量模型:ladder里就用了这个模型,用于发掘unlabelled data有不错的效果;
③ consistency/smoothness enforcing(真不是崇洋媚外,但是这东西翻译了就没那味了):这个就是将unlabelled data作为损失函数的一部分,直接作用于优化,使得模型判断能力更上一层楼。
这篇论文也是针对第三种 consistency/smoothness enforcing,做了很多创新性的设计。

二、UDA介绍

首先作者先把监督数据增强介绍了一下,这里它提到的是监督数据增强就是通过一定程度的扰动来形成新的数据集,在这里它也是提到了inductive biases,这也是后面UDA的一个优点。
然后就是UDA了,这个UDA并不是一种纯粹的数据增强方法,我将其理解为一种策略。在这里插入图片描述
这是整个策略的示意图,我们可以看到模型训练分为两部分,左边这一部分是labelled data的训练,使用交叉熵函数求解其有监督部分的损失;右侧有着两个相同的模型M,根据图上显示,unlabelled data会分身成多个,其中一个不进行数据增强直接进模型(注意这里的是θ~。意思是θ的拷贝但是不会传递梯度),其余的会通过数据增强(这里的数据增强与监督数据增强的方法是一样的)生成不同的样本,再进入M,这一部分是通过最小化KL散度求解的无监督损失,KL散度描述的就是两个分布之间的差异,KL=交叉熵-信息熵(概率论知识),然后对这个无监督损失函数乘上一个系数拉姆达,这个系数大概率为1。
在这里插入图片描述

在这里插入图片描述

这里J的第一项的目的是让模型分类更加准确,后面这一项是为了提高模型的泛化能力,提升鲁棒性。
这样的一种策略有如下三个好处:
①扰动有效:选用的数据增强方法都是很可靠且有效的,那么使用这样的数据增强方法形成的增强数据也是有效的,这样去求argmin KL散度也是有意义的(如果增强方式不够可靠,那么很有可能增强后的数据判断标签都变了,那还求啥散度);
②多样化扰动:UDA选用的数据增强方法都能够对数据进行足够大的扰动,而不是仅仅添加一个高斯噪音,具体的方法在后面有提到;
③有目标的归纳偏置:在机器学习中,很多学习算法经常会对学习的问题做一些假设,这些假设就 称为归纳偏置(Inductive Bias)[Mitchell,1997]。比如在最近邻分类器中,我们会假设在特征空间中,一个小的局部区域中的大部分样本都同属一类。在朴素贝叶斯分类器中,我们会假设每个特征的条件概率是互相独立的,归纳偏差可以理解为先验。有目标的意思就是针对不同的样本空间,有着相对应的先验。

接下来就是对Targeted inductive biases的解释:
在这里插入图片描述

①对于图像分类来说,使用AutoAugment,利用强化学习寻找一个在验证集上最有效的混合方法,找到了相关的策略,其归纳偏置也就得出来了(上图下面面包的例子);
②对于文本分类来说,反翻译是一种非常有效的方法,输入一个句子,根据一定文法规则获得句意后再生成同意思的句子,可以从例子里面看出来反翻译让句子的结构都发生了变化;
③反翻译也有一个不能忽视的问题,很有可能句子中存在若干个不能改变的单词,但是反翻译并不能发现这一点,所以TF-IDF就很重要了,TF是这个单词在这样一个文本中出现的次数,IDF是总文本数/出现了这个单词的文本数,两者相乘就能得到这一单词的重要程度,替换的时候可以替换掉TF*IDF小的单词。

接下来作者又解释了有关多样性和有效性的平衡问题,对于图像分类来说,AutoAugment太NB了,自动给你找好一个sweet point;对于文本分类来说,这里就要引入一个概念softmax温度系数:softmax就是一个激活函数,其温度系数会在WT内积X后除以这样一个温度系数t。


三、额外的训练技巧

注意这里是技巧,不是Augment,也就是说这是完全对于数据选用方面的操作,而不是修改数据。
①Training Signal Annealing:TSA是为了防止有限的labelled data被过拟合的问题,那么方式就是根据indicator function去判断,如果对于样本x的正确类标签判断概率已经超过某一个阈值时,则将这个labelled data移除batch。
在这里插入图片描述
这里面还有三种版本:
在这里插入图片描述
②锐化预测:
Consequently, the unsupervised training signal from the KL divergence is
relatively weak and thus gets dominated by the supervised part.
1、Confidence-based masking:每次augment data只选择一个高于阈值的样本去做最小化KL散度;
2、熵最小化:对于增强数据部分进行熵最小化,其实说白了就是除了KL,再来点强一点的约束;
3、softmax温度控制:温度低的时候更加sharpen
③领域相关数据过滤,域内数据是我们用于训练的相关数据领域,域外数据则是不相关的数据,为了增加数据,我们用域内数据训练的一个基准模型去测试域外数据,选择模型最自信的一部分域外数据,将其归为域内数据。

In practice, we find combining confidence-based masking and softmax temperature controlling to be most effective for settings with very small amount of labeled data, while entropy minimization works well for cases with relatively larger amount of labeled data.

懒得敲字了,就复制一下,把这个作为结尾吧

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值