关注公众号,发现CV技术之美
论文标题:Unsupervised Video Domain Adaptation: A Disentanglement Perspective
机构:字节跳动AI Lab,新加坡国立大学
论文链接:https://arxiv.org/abs/2208.07365
项目主页:https://ldkong.com/TranSVAE
开源代码:https://github.com/ldkong1205/TranSVAE
首个基于域解耦(domain disentanglement)的视频无监督域适应框架,构建了用于解耦静态域相关信息(domain-related info)和动态语义相关信息(semantic-related info)的跨域视频生成模型,并提出了四种约束项对该模型加以限制。在主流的视频域适应基线UCF-HMDB,Jester,Epic-Kitchens等上取得了SoTA的分数。
对Sprites中的"Human"和"Alien"角色进行域解耦与迁移的示意
01
背景
视频数据中的无监督域适应(unsupervised domain adaptation, UDA)问题有着理想的实际应用前景。在过去的数年里,种类丰富的UDA方法被提出并应用在了诸如图像识别、物体检测和图像分割等的视觉任务中。然而,大部分的UDA算法仅仅局限在图像层面,而更具有挑战性的视频UDA任务仍然有待探索。
与图像UDA任务相比,视频UDA中的源域(source domain)和目标域(target domain)之间还存在着时空(temporal)层面的差异。正是由于这个原因,现有的图像UDA方法难以在视频任务上取得优异的性能。举例来说,在基于视频的跨域动作识别任务中,域差异(domain gap)不仅仅由不同人在不同场景中的动作所呈现,还由出现在不同时间点(timestamp)或持续不同时长(time length)的动作所呈现。
Epic-Kitchens数据集中的动作识别场景
近期,一些针对视频UDA的方法被相继提出。这些方法的大致思路是追求源域和目标域在时空层面的对齐(alignment)。这些方法的出发点包括:对抗学习(adversarial learning)、对比学习(contrastive learning)、注意力机制(attention)等等。虽然上述方法推动了视频UDA领域的发展,但该方向依然留有进步的空间。
02
动机
跨域的视频数据有着很高的复杂度,包括了域相关信息(domain-related info)、语义信息(semantic-related info)、时空信息(temporal-related info)等在内的多种信息。如下图左所示,现有工作通常进行特征层面的对齐,并将上述各类信息混合在一起,因此可能无法保证源域和目标域之间的充分对齐。
传统的”压缩“视角与”解耦“视角的对比
这些方法通过专门设计的约束对域相关信息进行高度压缩,以使得源域和目标域的受约束后的新表征(representation)之间无法相互区分;而时空和语义相关信息等也被充分压缩,以便使得这些新表征在分类任务上有着良好的预测结果。然而,由于多种信息混合在一起,在压缩过程中不可避免地会出现信息混淆(mix)和丢失(loss),这可能会极大地危及最终的自适应性能。
方法
上述问题促使我们从解耦(disentanglement)的角度来处理视频UDA任务。我们的目标是在域适应过程中将域信息与其他信息分离,从而尽可能得消除源域和目标域之间的差异对预测任务的影响。
为了实现域解耦,我们首先考虑跨域视频的生成(generation)过程。我们假设一个视频序列是从两组潜在因子(latent factor)中生成出来的:一组因子由一系列随机变量组成,这些随机变量随时间而变化并编码与预测任务相关的语义信息;另一组因子则是静态的,将域相关信息引入到生成的视频中。
所提出的用于域解耦与迁移的(a)生成模型与(b)推理模型
上图展示了跨域视频的生成过程。其中,蓝色和红色节点(node)分别代表在 个时间点上观察到的源域和目标域视频和。静态变量和遵循联合分布(joint distribution),并且是特定于域本身的(domain-specific)。将二者中的任意一个与每个时间点的动态变量相结合,我们就可以构造出一个域上的一帧数据。注意,动态变量的序列在域之间是共享的并且是域不变的(domain-invariant),它们也被用于最终的预测任务。
从上文叙述的生成模型的角度出发,我们提出了用于视频UDA任务的新框架:TranSVAE。该序列VAE结构被应用于模拟跨域视频的生成过程,其中包含的各个组件被用来确保域解耦始终服务于域适应这个目的。
TranSVAE框架示意图
首先,我们通过最小化两组潜在因子间的相互依赖(mutual dependence)来实现良好解耦,鼓励这两个因子集中的信息相互排斥,从而实现域相关信息和其他信息的解耦。然后我们考虑约束每个潜在因子集。对于预期为”域不变“的动态序列,我们通过使用在帧层级和视频层级的对抗学习来对齐它们。与此同时,我们对从源域数据中提取的添加了特定于任务本身的监督学习,以利用该域中的标注信息。对于而言,我们希望它是静态的和能够用于表征”特定域的“。因此,对比三元组损失(contrastive triplet loss)被用于对进行约束。
总得来说,TranSVAE框架的目标是对静态的域相关信息和动态的语义相关信息进行解耦,从而实现源域和目标域在时空层面的对齐。其中包括的四个组件均按照这种思路对模型的学习加以约束,它们之间的有效促进是使得源域和目标域成功对齐的关键。更多的技术细节请参阅TranSVAE论文。
03
实验结果
TranSVAE的性能在主流的视频UDA基线上进行了广泛的验证,这些基线包括:UCF-HMDB,Jester,和Epic-Kitchens。我们也通过对Sprites数据集中的"Huamn"和"Alien"角色进行动作迁移,进一步验证了域解耦的有效性。
对比实验
UCF-HMDB基线上的对比实验: TranSVAE取得了优于同期SoTA方法的性能
Jester和Epic-Kitchens基线上的对比实验: TranSVAE在各个任务上均大幅领先于同期SoTA方法
与近期的多模态方法相比,TranSVAE仅使用单模态数据便取得了更优的域适应结果
消融实验
将UCF迁移到HMDB上的消融实验结果
将HMDB迁移到UCF上的消融实验结果
解耦实验
在Sprites中的"Huamn"和"Alien"角色之间进行域解耦与迁移的示意
更多有关 TranSVAE 中的域解耦的实例,请参阅我们在 Hugging Face Spaces上制作的 live demo: https://huggingface.co/spaces/ldkong/TranSVAE
04
总结
这个工作提出一个名为TranSVAE的视频序列解耦框架,并被应用于视频数据的无监督域适应任务中。TranSVAE追求对静态的域相关信息和动态的语义相关信息进行解耦,从而更好的对齐源域和目标域。在主流的视频无监督域适应基线上,TranSVAE取得了优于同期各类单模态和多模态SoTA方法的成绩。
欢迎加入「域适应」交流群👇备注:域适应