字节&NUS开源TranSVAE:基于生成模型的视频无监督域适应框架

关注公众号,发现CV技术之美

d0b5f90be2226725bb07f2bf9f4eccc5.png

  • 论文标题:Unsupervised Video Domain Adaptation: A Disentanglement Perspective

  • 机构:字节跳动AI Lab,新加坡国立大学

  • 论文链接:https://arxiv.org/abs/2208.07365

  • 项目主页:https://ldkong.com/TranSVAE

  • 开源代码:https://github.com/ldkong1205/TranSVAE

首个基于域解耦(domain disentanglement)的视频无监督域适应框架,构建了用于解耦静态域相关信息(domain-related info)和动态语义相关信息(semantic-related info)的跨域视频生成模型,并提出了四种约束项对该模型加以限制。在主流的视频域适应基线UCF-HMDB,Jester,Epic-Kitchens等上取得了SoTA的分数。

e6dcb74ef7c958dceb16bdb4545d4300.gif

  对Sprites中的"Human"和"Alien"角色进行域解耦与迁移的示意

      01      

背景

视频数据中的无监督域适应(unsupervised domain adaptation, UDA)问题有着理想的实际应用前景。在过去的数年里,种类丰富的UDA方法被提出并应用在了诸如图像识别、物体检测和图像分割等的视觉任务中。然而,大部分的UDA算法仅仅局限在图像层面,而更具有挑战性的视频UDA任务仍然有待探索。

与图像UDA任务相比,视频UDA中的源域(source domain)和目标域(target domain)之间还存在着时空(temporal)层面的差异。正是由于这个原因,现有的图像UDA方法难以在视频任务上取得优异的性能。举例来说,在基于视频的跨域动作识别任务中,域差异(domain gap)不仅仅由不同人在不同场景中的动作所呈现,还由出现在不同时间点(timestamp)或持续不同时长(time length)的动作所呈现。

32028fcfa74e5aa2c3dd74a2921faf0a.png

  Epic-Kitchens数据集中的动作识别场景

近期,一些针对视频UDA的方法被相继提出。这些方法的大致思路是追求源域和目标域在时空层面的对齐(alignment)。这些方法的出发点包括:对抗学习(adversarial learning)、对比学习(contrastive learning)、注意力机制(attention)等等。虽然上述方法推动了视频UDA领域的发展,但该方向依然留有进步的空间。


      02      

动机

跨域的视频数据有着很高的复杂度,包括了域相关信息(domain-related info)、语义信息(semantic-related info)、时空信息(temporal-related info)等在内的多种信息。如下图左所示,现有工作通常进行特征层面的对齐,并将上述各类信息混合在一起,因此可能无法保证源域和目标域之间的充分对齐。

ff0a5384964f8c453d1f97ece3f56e21.png

 传统的”压缩“视角与”解耦“视角的对比

这些方法通过专门设计的约束对域相关信息进行高度压缩,以使得源域和目标域的受约束后的新表征(representation)之间无法相互区分;而时空和语义相关信息等也被充分压缩,以便使得这些新表征在分类任务上有着良好的预测结果。然而,由于多种信息混合在一起,在压缩过程中不可避免地会出现信息混淆(mix)和丢失(loss),这可能会极大地危及最终的自适应性能。

方法

上述问题促使我们从解耦(disentanglement)的角度来处理视频UDA任务。我们的目标是在域适应过程中将域信息与其他信息分离,从而尽可能得消除源域和目标域之间的差异对预测任务的影响。

为了实现域解耦,我们首先考虑跨域视频的生成(generation)过程。我们假设一个视频序列是从两组潜在因子(latent factor)中生成出来的:一组因子由一系列随机变量组成,这些随机变量随时间而变化并编码与预测任务相关的语义信息;另一组因子则是静态的,将域相关信息引入到生成的视频中。

65bcf02ab821b4925133a2a4f4860076.png

  所提出的用于域解耦与迁移的(a)生成模型与(b)推理模型

上图展示了跨域视频的生成过程。其中,蓝色和红色节点(node)分别代表在 个时间点上观察到的源域和目标域视频和。静态变量和遵循联合分布(joint distribution),并且是特定于域本身的(domain-specific)。将二者中的任意一个与每个时间点的动态变量相结合,我们就可以构造出一个域上的一帧数据。注意,动态变量的序列在域之间是共享的并且是域不变的(domain-invariant),它们也被用于最终的预测任务。

从上文叙述的生成模型的角度出发,我们提出了用于视频UDA任务的新框架:TranSVAE。该序列VAE结构被应用于模拟跨域视频的生成过程,其中包含的各个组件被用来确保域解耦始终服务于域适应这个目的。

a2a5dd6915b0c012cf9c12e2b112e6a0.png

  TranSVAE框架示意图

首先,我们通过最小化两组潜在因子间的相互依赖(mutual dependence)来实现良好解耦,鼓励这两个因子集中的信息相互排斥,从而实现域相关信息和其他信息的解耦。然后我们考虑约束每个潜在因子集。对于预期为”域不变“的动态序列,我们通过使用在帧层级和视频层级的对抗学习来对齐它们。与此同时,我们对从源域数据中提取的添加了特定于任务本身的监督学习,以利用该域中的标注信息。对于而言,我们希望它是静态的和能够用于表征”特定域的“。因此,对比三元组损失(contrastive triplet loss)被用于对进行约束。

总得来说,TranSVAE框架的目标是对静态的域相关信息和动态的语义相关信息进行解耦,从而实现源域和目标域在时空层面的对齐。其中包括的四个组件均按照这种思路对模型的学习加以约束,它们之间的有效促进是使得源域和目标域成功对齐的关键。更多的技术细节请参阅TranSVAE论文。


      03      

实验结果

TranSVAE的性能在主流的视频UDA基线上进行了广泛的验证,这些基线包括:UCF-HMDB,Jester,和Epic-Kitchens。我们也通过对Sprites数据集中的"Huamn"和"Alien"角色进行动作迁移,进一步验证了域解耦的有效性。

对比实验

e9167dff806f9c71bb07277522fc19af.png

  UCF-HMDB基线上的对比实验: TranSVAE取得了优于同期SoTA方法的性能

ae767172cf573dbe67021625e526cc66.png

  Jester和Epic-Kitchens基线上的对比实验: TranSVAE在各个任务上均大幅领先于同期SoTA方法

258b9cc15df72ba56a012b95eb024bbd.png

  与近期的多模态方法相比,TranSVAE仅使用单模态数据便取得了更优的域适应结果

消融实验

a87d126b02d52b9e4046bbbd638b9cd4.png

  将UCF迁移到HMDB上的消融实验结果

47cd7d39b5ed1085e530e109619e56dc.png

  将HMDB迁移到UCF上的消融实验结果

解耦实验

ca467644de6b545ef114861ae33fd24d.png  在Sprites中的"Huamn"和"Alien"角色之间进行域解耦与迁移的示意

更多有关 TranSVAE 中的域解耦的实例,请参阅我们在 Hugging Face Spaces上制作的 live demo: https://huggingface.co/spaces/ldkong/TranSVAE


      04      

总结

这个工作提出一个名为TranSVAE的视频序列解耦框架,并被应用于视频数据的无监督域适应任务中。TranSVAE追求对静态的域相关信息和动态的语义相关信息进行解耦,从而更好的对齐源域和目标域。在主流的视频无监督域适应基线上,TranSVAE取得了优于同期各类单模态和多模态SoTA方法的成绩。

欢迎加入「域适应交流群👇备注:域适应

2d1bfc5da9d1dfd62622fb99e18654fe.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值