![5f22889686e157e03792af701890bba1.png](https://img-blog.csdnimg.cn/img_convert/5f22889686e157e03792af701890bba1.png)
现阶段,关于半监督领域自适应学习(Semi-supervised Domain Adaptation, SSDA)的论文文献依然数量比较少。下面介绍一篇发表在ICCV2019的会议论文,由波士顿大学和加州大学伯克利分校的共同发表。
![295f47ba6b9abb05896ede007d0d83ed.png](https://img-blog.csdnimg.cn/img_convert/295f47ba6b9abb05896ede007d0d83ed.png)
- 论文地址:https://arxiv.org/abs/1904.06487
- 代码地址:https://github.com/VisionLearningGroup/SSDA_MME
- 项目地址:http://cs-people.bu.edu/keisaito/research/MME.html
作者一开始指出UDA能够通过匹配分布的方法来提升模型对目标域无标签样本的泛化性,但是却在目标域上无法学习到具有判别性的“类别边界”——如Figure 1(Top)所示。作者就提出在目标域训练样本中增加少量的有标签样本来实现获取模型对目标域具有区别性的特征,并提出了一种叫做Minimax Entropy(MME)的方法来实现此目标。MME方法是一种基于对无标记数据的条件熵以及任务损失的优化极小极大损失,他能够减少分布差异,又能学习任务具有区别性的特征,作者使用这种方法来评估每一种类别(或者称为prototype原型)具有代表性的数据点,以及提取判别性特征——如Figure 1(Bottom)所示。
![2cdfd851ef401d1b289a68ac3214a893.png](https://img-blog.csdnimg.cn/img_convert/2cdfd851ef401d1b289a68ac3214a893.png)
作者使用一种最近常被用于少样本学习(Few-shot Learning)的基于余弦相似性分类器结构,这种方法确认能够在作者模型中取得有效性,但是是由局限性的。特别是,它无法在目标域无标签样本中使用。
![2136911348505a42896004a38bf84d58.png](https://img-blog.csdnimg.cn/img_convert/2136911348505a42896004a38bf84d58.png)
本文中的核心思想是最小化类别原型(class-wise prototype)以及邻近目标域无标签样本之间的距离,然后提取判别性样本。问题是在没有大量有标签目标域样本的情况下如何评估“域间不变性原型”。正如Figure 2(Bottom)所示,类似于一般的少样本学习,由于大量有标签样本来自于源域,因此,会导致原型prototype会被源域主导。作者使用的MME方法能够通在无标签样本进行过域不变原型prototype评估来提取具有判别性和领域不变性的特征。具体方法如Figure 2(Bottom)所示:第一,更新分类器已评估过的原型来最大化无标签目标域样本;第二,最小化特征提取器相关熵从而围绕原型prototype进行聚类。这是一个类似于分类器与特征提取器之间的最大最小博弈过程。
基于相似性的网络结构
![759aed6cddcc9b8f7d37ffcf3b2ef835.png](https://img-blog.csdnimg.cn/img_convert/759aed6cddcc9b8f7d37ffcf3b2ef835.png)
整个网络的组成部分可以参见Figure 3:
(1)特征提取器
(2)分类器
输出的特征经过Softmax操作之后得到每个样本的概率分布:
为了正确分类,权重向量
模型的训练
熵最大化能够避免过拟合,而过拟合会减少所学习到的表示特征的表达能力。因此,熵最大化过程可以被认为是选择能够避免造成过模型拟合于源域样本问题的原型prototype的步骤。在这项工作中,原型是通过网络的最后一层使用权重向量
首先,通过使用有标签源域样本和有标签目标域域样本构造标准交叉熵训练特征提取器和分类器进行正确分类,并且通过使用熵最小化目标来获取对于目标域的判别性特征。训练特征提取器和分类器的损失函数为标准交叉熵:
再者,就是通过对抗训练的方法来实现本文的想法。
这需要一个前提假设,对于每一个类别存在单一的领域不变性原型(也就是上面所说的评估原型),它同时能够具有代表性地表示源域和目标域的数据点。这个评估原型将会接近源域数据点,因为它是由源域标签来主导的。然后,作者又提出通过使用目标域无标签样本来移除每一个朝向特征的权重向量
为了获取更高的熵,也就是说让每一个输出概率均匀化,每一个权重向量
为了获取无标签目标域样本的判别性特征,需要将无标签目标域样本特征聚集在评估原型附近。为此,作者提出通过特征特区器来减少无标签目标域样本的熵。这些特征应该被匹配到其中一个原型来减少熵,从而得到所希望的判别性特征。
重复这个熵最小化和熵最大化的过程就可以产生判别性特征。
总得来说,可以概况成为在特征提取器和分类器之间的对抗性训练。分类器被训练来最大化熵,同时通过训练特征提取器最小化熵。特征提取器和分类器都同时用来训练正确分类有标签样本。
整体的对抗性损失函数可以表示如下:
为了简化训练过程,作者使用了梯度反转层来翻转关于