读论文:基于自监督知识的无监督新集域适应学习

标题: 基于自监督知识的无监督新集域适应学习
作者: 汪云云 , 孙顾威 , 赵国祥 , 薛晖


Abstract

无监督域适应(UDA)旨在利用带大量标注数据的源域帮助无任何标注信息的目标域学习。它通常会假设源域和目标域间的数据分布不同, 但共享相同的类标签空间。但是在真实的情况下往往不是这样的。在真实情况中可能还会出现域间的类别不存在交集的形势,若此时仍然直接迁移源域的类判别知识, 可能会损害目标域性能, 导致负迁移问题(辅助领域任务对目标领域任务有负面效果)。因此,就提出了基于自监督知识的无监督新集域适应(SUNDA)方法迁移源域的样本对比知识; 同时, 利用目标域的自监督知识指导知识迁移。此外, 利用基于图的自监督分类损失, 还可以解决域间无共享类别时目标域的分类问题。相关实验的结果表明,SUNDA的学习性能优于无监督域适应、无监督聚类以及新类别发现方法;

工作流程首先, 通过自监督学习源域和目标域初始特征, 并固定部分网络参数用于保存目标域信息。将源域的样本对比知识迁移至目标域, 辅助目标域学习类判别特征


Introduction

虽然基于大数据的深度学习模型比传统的机器学习模型有着更强的预测性能。但是像深度网络这种监督模型的训练一般都需要大量的有标记数据,而数据标注通常都要人工参与,使得代价变得十分高昂。此外,学习模型对新环境和新任务的适应能力弱——>域适应(domain adaptation, DA)学习利用相关但不同的任务域辅助当前任务域的学习——> 目标域中无任何标注信息的无监督域适应是域适应学习中最具挑战和备受关注的研究方向。

在UDA中有一些概念定义如下:

  • 目标域:当前关注的任务域;
  • 源域:其他相关但不同的任务域;
  • 学习目标:将相关的源域知识迁移至目标域中, 以提升目标域的学习性能;

由于各种因素的影响,目标域与源域的样本分布往往存在差异——>域适应工作大多致力于减少域间的样本分布差异,包括 边缘分布条件分布差异

工作内容:通过分布差异最小化/域混淆等策略对齐域间的特征分布。再通过源域经验风险最小化, 将源域中的类判别知识迁移至目标域中, 指导目标域的分类学习。这些工作通常假设领域间的类标签空间一致或同构

而在现实的开放动态环境中,由于样本的类别无法恒定,导致了域间的标签空间很可能存在差异, 源域或目标域中会出现域非共享类别。会出现以下两种问题:

  • 部分域适应(PDA):源域中包含非共享类的学习问题;
  • 开集域适应(OSDA):目标域中包含新类别的学习问题;
    ——>现有工作致力于识别域间的共享类别并迁移共享类知识。但在极端条件下, 域间可能不存在任何共享类别,称为新集域适应(NSDA),如下图所示;

传统域适应方法在解决 NSDA 时会有如下问题:

  1. 由于源域与目标域不存在共享类, 直接进行域特征对齐和知识迁移可能会引起负迁移现象;
  2. 域间类别集合无交集, 基于源域学习所获分类器无法用于目标域数据分类
  • NSDA的学习目标:训练学习模型以识别从未见过的类别样例,而且不会给定任何语义或属性信息;
  • 零次学习(zero-shot learning)的学习目标:想能够在没有获得任何训练数据的情况下解决一个问题,但是通常需要辅助信息;
  • 新类别发现:对未见类别样本进行预测, 但在学习中不考虑已知类和新类别间的分布迁移;

——>基于自监督知识的无监督新集域适应学习方法 SUNDA来应对NSDA的学习场景。一方面,对于源域和目标域间无任何共享类别,采取挖掘和迁移源域中的样本对比知识的方法(它与具体的类别标签无关, 用于描述样本对是否源于同一类别。将其迁移至目标域, 帮助实现目标域样本对的有效判别, 生成强判别能力特征);另一方面, 试图利用目标域的自监督知识指导源域知识迁移。将目标域样本多分类问题转化为判定样本对是否属于同类别的二分类问题, 并通过目标域的生成特征给样本对赋予伪标签, 实现目标域样本分类;

  • 特点
  1. 采用自监督预训练, 学习源域和目标域数据的底层特征, 以保存目标域信息;
  2. 将源域的样本对比知识迁移至目标域, 辅助目标域生成类判别特征. 样本对比知识与具体类别标签无关, 因此源域和目标域无需包含共享类别;
  3. 通过目标域中基于图的自监督知识指导知识迁移, 同时解决 NSDA 中目标域样本分类问题;

综述

一、相关工作

1.1 无监督域适应

  • 域适应学习的目标:将一个或多个不同但相关源域的知识迁移至目标域, 以解决目标域中样本标注稀缺等问题;
  • 分类:基于差异的方法、基于对抗的方法以及基于重构的方法
  1. 基于差异的域适应方法通过域间的分布差异最小化减少域间的分布距离;
  2. 基于对抗的方法通常利用域判别器区分域间样本, 同时, 训练特征提取器用于混淆域判别器, 生成域不变特征
  3. 基于重构的方法利用对抗方式生成其他域样本, 实现风格迁移;

上述方式主要面向类标签空间一致的迁移学习场景. 而在现实学习任务中, 域间的标签空间很可能存在差异

  • 面向差异标签空间的迁移学习方法面向差异标签空间的迁移学习方法:在现实学习任务中, 域间的标签空间很可能存在差异,这方法有用于评估源域样本和目标域间的相似性的辅助域判别器、使用多个类级别和实例级别的权重机制实现各类的单独对抗来应对PDA以及利用递进式加权策略度量源域样本的可迁移性的ETN方法等;

1.2 自监督学习SSL

  • 目标:根据数据自身属性免费生成非目标标签, 以减少学习任务对大量标注数据的依赖;
  • 流程:SSL 通过创建免人工标注的前置任务为特征学习提供代理的监督信号, 获得有益于下游任务的特征表示;
  • 关键:前置任务的设计, 即如何依据数据属性自动生成免费的非目标标签;
  • 生成方法:主要针对图像或视频数据, 通过数据重建等方式人工构造数据标签, 并学习视觉特征;
  • 对比方法:关注样本间的对比知识, 旨在通过对比而非辅助标签学习特征, 实现样本间的有效区分;

二、方法

  • 符号定义:有标签源域数据和无标签目标域数据分别表示为(XS,YS)={(xSi,ySi)}Ni=1和Xt={xSi}Mj=1,其中, N 和 M 分别为源域和目标域样本个数;源域数据给定类别标签ySi∈CS={1,2,…,r},而且标域类别标签yti∈Ct未知;源域与目标域间无共享类别,即CS∩Ct=∅;(上标符号 s 和 t 分别代表源域和目标域)
  • SUNDA 将源域中样本对比知识迁移至目标域, 同时利用目标域的自监督知识指导知识迁移,其网络结构如下图所示:

实线箭头代表网络链接, 虚线箭头代表损失计算. 源域与目标域共享特征提取器 g 和域迁移网络ft
其中: g 为特征提取器; ft 为域迁移网络, 用于 迁移源域中样本对比知识 ;源域与目标域共享 g 和 ft。D 为域鉴别器, 用于 区分源域和目标域样本 . η1 和η2 分别为源域和目标域分类器, 。由单层全连接网络构成, 节点数分别为源域和目标域中类别数. LCE 为源域分类损失. LN 为源域 Npair 损失, 包括LN(g)与LN(ft), 用于刻画源域中样本对比知识. LD 为域判别损失. LBCE 为目标域分类损失;

  • 学习流程
    (1)首先, 通过自监督学习 g 的初始参数, 并在后续学习中固定 g 的部分参数, 用于保存源域和目标域信息;
    (2)使用源域数据计算类对比损失(图中LN 和LCE), 通过特征提取器 g、域迁移网络 ft 与鉴别器 D 间的最小最大博弈, 将源域类对比知识迁移至目标域, 使目标域获得更有判别能力的特征;
    (3)利用目标域特征构造伪标签矩阵 W(图中 Wg和 Wf为不同层特征所得伪标签矩阵, 结合 Wg 和 Wf计算 W), 并通过伪标签矩阵计算基于自监督的分类损失, 实现目标域分类;
    注意,(2)和(3)是同时进行的

2.1 自监督预训练

  • 问题:由于域间标签空间无交集, 源域知识迁移可能会使学习模型偏重源域学习, 导致目标域中有用信息的丢失;
  • 目标:SUNDA 利用自监督预训练提取源域与目标域的底层特征, 并在后续训练中固定网络中前几层参数, 用于保存目标域信息;
  • 流程:首先, 将源域和目标域数据合并 X=XS∪Xt, 并将样本随机旋转得到(X,Y)={(xi,yhati)}N+Mi(其中, N+M 为样本总数,yhati∈∈{0,1,2,3}分别代表将xi旋转0/90/180/270°),最小化交叉熵损失, 使旋转后样本与其基于旋转角度的类别标签相关联:

zi为样本 xi 经特征提取器 g 的生成特征, 即 zi=g(xi); 同η1 和η2, η为包含 4 个节点的单层分类网络


2.2 基于样本对比知识迁移的域适应

由于源域和目标域间无任何共享类别,采用将源域与具体类别标签无关的类对比知识迁移至目标域的方法, 以产生强判别能力特征

  • 类对比知识:源域 XS先后经特征提取器 g 和域迁移网络 ft 生成特征 g( XS)和 ft(g( XS)),在两种特征上分别计算Npair损失, 并结合源域交叉熵损失, 得到基于源域的优化目标:

    其中:

最后一条公式中,xn和 xn+ 为属于同一类别样本。当 n=k时, xn和 xk+ 属于同类; 反之属于不同类。 LCE为源域交叉熵损失

Npair 损失LN 能够保证类间间隔最大化, 使生成特征更具判别能力;

  • 对抗域适应:由于域间无共享类别, SUNDA 采用非对称域对齐方式(若g(x)=ft(g(x)), 则与 DANN 相同)。
    具体流程:训练域判别器 D 用于区分经域迁移网络 ft 的源域数据和经特征提取器 g 的目标域数据, 同时训练特征提取器 g 和域迁移网络 ft 以混淆域判别器
    非对称域判别损失刻画如下:

2.3 基于图的自监督分类

在获得目标域判别型特征的同时, 需对目标域数据进行分类. SUNDA 通过基于图的自监督学习方式获得目标域样本对的伪标签, 用于指导知识迁移, 同时解决 NSDA 中目标域分类问题;

  • 基于图的相似矩阵:基于 cosine 距离计算目标域特征 g(Xt)和 ft(g(Xt))上样本对的相似性矩阵 Sg 和 Sf, 公式如下:

⋅为向量点积, zig 为目标域 xit 经特征提取器 g 后的特征 zgi = g(xti)。 zfi为目标域 xti经特征提取器 g 和域迁移网络 ft 后的特征 zfi=ft(g(xti))

  • 基于图的伪标签矩阵:获得相似性矩阵Sg 和 Sf 后通过阈值法构造样本对伪标签矩阵Wg 和 Wf

若两样本间相似性大于所设阈值 thres, 则属于同一类别(Wgij=1/Wfij=1)
结合伪标签矩阵Wg 和 Wf,目标域伪标签矩阵可表示为:

A|B 代表 A, B 矩阵内对应位置的逻辑或运算。若 Wij=1(True), 表明样本 xi和 xj 属于同类; 反之亦反;

实际上, 自监督预训练有助于提升初始伪标签矩阵的准确率

  • 基于伪标签的分类损失:获得伪标签矩阵 W 后, 希望通过伪标签实现目标域分类。在目标域分类器η2 的输出空间上计算样本内积η2(zti)Tη2(ztj)(其中zti=ft(g(xti)),η2(ztj)为经过 softmax 层归一化的概率向量)。该内积代表样本 xti 和 xtj 在输出空间的相似性。结合伪标签矩阵 W, 可得目标域分类损失:
  • 基于数据增强的伪标签分类损失:进一步改造上面那个公式, 提出了基于数据增强的LBCE 损失,将其改造为:

定义 xˆi 为 xi 经数据增强后样本, 在数据增强后的样本 xˆi 和原始样本 xj 的上计算内积η2(zˆti)Tη2(zˆtj)


2.4 一致性鲁棒损失

鲁棒的学习模型应对同一样本的不同变换保持输出不变性,一致性损失也普遍应用于半监督学习中。给定样本 x 和变换 T, 定义变换后的样本 xˆ = T ⋅ x , 学习模型应保证 x 和 xˆ 间输出一致性为此, 约束学
习中 xti 和增强后 xˆti 的输出一致性。一致性鲁棒损失如下:

zSi=g(xSi),zˆSi=g(xˆSi),zti=ft(g(xti)),zˆti=ft(g(xˆti))

最终, SUNDA 的优化目标可刻画如下:

最小化Lg,ft,η1,η2用于优化参数θgft, θη1 和θη2, 最小化LD以优化θD。训练过程采用交替优化方式。ω(t)为ramp-up 函数,广泛用于半监督学习中, 这里使用 sigmoid-shaped 函数ω(t)=εe-5(1-t/T)ˆ2 t 是当前的时间步长, T 是 ramp-up 长度并且ε∈R+

训练流程:如下面的算法所示


三、实验与结果

  • 实验分为 3 个部分:首先, 在数字数据集和人脸数据集上与现有方法进行性能对比; 其次, 基于消融实验验证 SUNDA 模型中各损失的有效性; 最后, 对阈值参数 thres 进行敏感性分析;
  • 由于域间无共享类别, 且目标域的类别标签未知, 无法将预测标签与真实标签一一对应。为此, 采用聚类准确率(ACC)评估算法的学习性能, 定义如下:

li 为样本的真实标签, ci 是预测标签, m 为所有可能的聚类和类别间映射。通过 Hungarian 算法进行优化, 求解不同映射下的最大 ACC 值


3.1 数字数据集分类任务

本组实验研究 SUNDA 在 MNIST, USPS 和 SVHN 数据集上, 无域间共享类别下的迁移性能。实验选择4组跨域分类实验来评估聚类准确率:1) MNIST 到 USPS; 2) USPS 到 MNIST; 3) SVHN 到 MNIST; 4) SVHN 到USPS。每组实验将数字 0-4 作为源域, 5-9 作为目标域。

MNIST 由 250 个不同人的手写数字构成, 包括 60 000 张训练图片和 10 000 张测试图片, 每张图片的大小为 1×28×28(通道×长×宽);
USPS 是从美国邮政采集的手写数字, 包括 999 张训练图片和 250 张测试图片, 每张图片的大小为 1×16×16;
SVHN 是通过谷歌街景采集的门牌号数据, 包括 4 578 张训练图片和 1 627 张测试图片, 每张图片的大小为 3×32×32;
实验中, 将 MNIST 和 USPS 放缩至 1×32×32, 使用通道拷贝将单通道转变为三通道 3×32×32, 每张的图片像素都归一化至[0,1]之间

实验使用 ResNet-18 作为特征提取器,域迁移网络使用两层全连接网络(dim-320-320-dim)和残差网络将输入向量映射为维度相同的向量,如下图所示:

dim 为输入维度

域分类网络包含两层全连接层(dim-320- 320-1), 如下图所示:

所有参数采用 SGD 进行更新, 学习速率为 3e−3, 阈值 thres 为 0.95, 超参数λ和α分别使用 0.3 和 1。

实验将 SUNDA 与无监督域适应和无监督聚类算法进行对比, 结果如表所示:

表中第 1 列(METHOD)代表对比方法, 最后一列(avg)为不同方法的平均性能, 中间列为各方法在各迁移任务上聚类准确率;

基于上面的表不难得出:由于域间无共享类别, DANN 实现域分布对齐和源域判别知识迁移, 并不能获得令人满意的学习性能。而关注对比知识迁移, 同时使用非对称分布对齐, SUNDA 获得了显著的提升;相比于非深度聚类 K-means, SUNDA 同样也有显著的性能提升。
但是DANN但相比于其他深度聚类的方法提升就不是特别大,这是因为数字数据相对简单, 网络提取的特征容易区分, 因此无域适应的深度聚类方法已经能够获得比较好的学习效果

此外, 验证了 SUNDA 在域间存在交集场景下的有效性为产生交集类别, 将源域类别依次去除{0,1,2,3,4}类, 同时增加{5,6,7,8,9}类, 分别设计 5 组实验场景, 如表所示:

下图展示了 USPS 到 MINIST 任务上各对比方法在上述场景下的学习性能:

横轴为重叠比例, 纵轴为学习性能

可以看出:

  1. 因目标域类别恒定, 聚类方法的学习性能保持不变. 而随域间重叠类别逐渐增多, DANN 和 SUNDA 的学习性能都逐渐提升——>域间重叠知识越多, 源域知识迁移对目标域学习越有利;
  2. 在该学习任务上, 当域间无重叠类别时, SUNDA 的性能稍差于深度聚类方法 DCC 的性能。但随着重叠类别不断提升,会超越DCC,这也验证了源域相关知识的合理利用可有效辅助目标域学习;
  3. 在上述 5 组实验场景下, SUNDA 的性能皆优于 DANN 的性能, 验证了SUNDA 的有效性;

3.2 人脸数据集分类任务

白人包含 13 类共 1 025 张图片, 黑人包含 10 类共 739 张图片, 黄种人包含 10 类共 825 张
图片. 将所有图片缩放至 3×110×110 并将像素归一化至[0,1]之间;

由于人脸图片受到光线、角度、年龄等因素影响, 相比于数字数据集场景更加复杂, 更具挑战性;

实验将 SUNDA 与无监督域适应、无监督聚类算法和发现新类方法进行对比, 实验结果见表:

从实验结果可以看出,SUNDA 在所有迁移任务上的学习性能都显著优于对比方法的性能

与数字数据集不同, 人脸场景复杂且不同类别间相似度大, 因此实验中所有聚类算法均无法获得较好的学习性能;

综上, 在数字数据集和人脸数据集上, SUNDA 都取得了较好的学习性能:在数字数据集上, 与 DCC 进行对比, SUNDA 的学习性能并没有很明显的优势;而在人脸数据集上, SUNDA 相较于无监督聚类、无监督域适应以及发现新类方法均取得明显的性能提升。此外, 在数字数据集上, 无监督聚类方法获得了较好的学习性能, 但到人脸数据集并不能很好地发挥作用。但与此同时, SUNDA 依然可以获得较好的学习效果——>SUNDA 在 NSDA 任务中能够充分利用源域知识辅助目标域识别, 提升目标域学习性能


3.3消融实验

为了进一步验证方法每一部分的有效性, 本组实验将在白人到黄种人的场景下进行消融实验。实验包括4 个损失: 1) 类对比损失; 2) 对抗域适应损失(Lgan 包含了Ladv 和LD 两个损失的对抗); 3) 目标域基于图自监督的分类损失; 4) 一致性损失。结果如下:

ACC 为分类准确率, NMI 为标准化互信息, ARI 为调整兰德系数. NMI 和 ARI 常用于评估聚类的好坏。ACC、NMI 和 ARI 的值越高代表性能越好

通过表 4 可发现, 域迁移网络 ft 的对抗损失Lgan、类对比损失Lconstrastive 和一致性鲁棒损失Lcon 均能够带来明显的效果提升


3.4 参数敏感性分析

本节对阈值参数 thres 对 SUNDA 学习性能的影响进行分析, 通过参数 thres 挑选正样本对, 用于基于图的自监督分类。在人脸数据 6 组迁移任务上进行实验, 实验结果如图所示:

Y, W 和 B 分别代表黑人、白人和黄种人的人脸数据。横坐标为 thres 的值, 纵坐标为 SUNDA 的学习性能

从图可看出: 随着 thres 的增加, SUNDA 的分类效果整体逐步变好
原因在于:本文基于 cosine 距离, 通过 thres 挑选正样本对形成样本对伪标签, 随 thres 增大, 样本对的准确率将逐步提升, 从而使 SUNDA 的分类愈加准确;


3.5 方法稳定性分析

为探究 SUNDA的稳定性, 绘制了在人脸数据集的 6组迁移任务上, SUNDA学习性能随迭代的变化图:

其中, 横坐标为迭代次数, 纵坐标为 SUNDA 的分类性能

由图可知: SUNDA 的学习性能随迭代次数的增加, 基本呈上升趋势, 并逐渐趋于稳定, 验证了 SUNDA 的稳定性;此外, SUNDA 利用基于图的自监督分类, 指导源域知识迁移, 其中, 伪标签矩阵由样本对 cosine 距离和阈值法获得,其准确率随迭代的变化图如下所示:

横坐标为迭代次数, 纵坐标为样本对伪标签准确率

由图可知: 伪标签矩阵的初始准确率基本在 80%以上, 且随迭代的进行, 准确率呈不断上升趋势, 可对源域知识迁移进行有效指导, 进一步验证了基于图的自监督分类的有效性以及方法的稳定性


总结

针对无监督域适应中, 源域与目标域类别标签集合完全不同的 NSDA 学习任务, 本文提出了 SUNDA 方法:

  • 首先, 采用自监督学习初始特征, 通过对抗迁移源域的类对比知识, 帮助目标域学习判别特征. 同时采用了目标域基于图的自监督来指导模型的学习, 并解决了异构标签空间下目标域的分类问题;
  • 实验结果表明: 与无监督域适应和无监督聚类方法以及新类发现方法相比较, SUNDA 的学习效果得到了显著的提升

未来展望

此外, 在开放集域适应中, 当前学习方法将目标域中的私有类都归为未知类. 实际上, 可以考虑将以往开放集域适应的方法与本文相结合, 在对共享类实现对齐和分类的同时, 实现域私有类准确分类.

  • 9
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值