字节&NUS开源TranSVAE：基于生成模型的视频无监督域适应框架

最新推荐文章于 2024-07-22 22:58:19 发布

OpenCV中文网公众号

最新推荐文章于 2024-07-22 22:58:19 发布

阅读量139

点赞数

文章标签： python 机器学习人工智能 java 大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzUzODkxNzQzMw==&mid=2247493769&idx=1&sn=19ce75c046d160c40dd3d2b4878cbc94&chksm=fad2c7dfcda54ec98390d8c43d216cf925c516fcc7180d6888fa0cb33f5b59e80253d23293b4&scene=126&&sessionid=0

版权

关注公众号，发现CV技术之美

论文标题：Unsupervised Video Domain Adaptation: A Disentanglement Perspective
机构：字节跳动AI Lab，新加坡国立大学
论文链接：https://arxiv.org/abs/2208.07365
项目主页：https://ldkong.com/TranSVAE
开源代码：https://github.com/ldkong1205/TranSVAE

首个基于域解耦(domain disentanglement)的视频无监督域适应框架，构建了用于解耦静态域相关信息(domain-related info)和动态语义相关信息(semantic-related info)的跨域视频生成模型，并提出了四种约束项对该模型加以限制。在主流的视频域适应基线UCF-HMDB，Jester，Epic-Kitchens等上取得了SoTA的分数。

对Sprites中的"Human"和"Alien"角色进行域解耦与迁移的示意

背景

视频数据中的无监督域适应(unsupervised domain adaptation, UDA)问题有着理想的实际应用前景。在过去的数年里，种类丰富的UDA方法被提出并应用在了诸如图像识别、物体检测和图像分割等的视觉任务中。然而，大部分的UDA算法仅仅局限在图像层面，而更具有挑战性的视频UDA任务仍然有待探索。

与图像UDA任务相比，视频UDA中的源域(source domain)和目标域(target domain)之间还存在着时空(temporal)层面的差异。正是由于这个原因，现有的图像UDA方法难以在视频任务上取得优异的性能。举例来说，在基于视频的跨域动作识别任务中，域差异(domain gap)不仅仅由不同人在不同场景中的动作所呈现，还由出现在不同时间点(timestamp)或持续不同时长(time length)的动作所呈现。

Epic-Kitchens数据集中的动作识别场景

近期，一些针对视频UDA的方法被相继提出。这些方法的大致思路是追求源域和目标域在时空层面的对齐(alignment)。这些方法的出发点包括：对抗学习(adversarial learning)、对比学习(contrastive learning)、注意力机制(attention)等等。虽然上述方法推动了视频UDA领域的发展，但该方向依然留有进步的空间。

动机

跨域的视频数据有着很高的复杂度，包括了域相关信息(domain-related info)、语义信息(semantic-related info)、时空信息(temporal-related info)等在内的多种信息。如下图左所示，现有工作通常进行特征层面的对齐，并将上述各类信息混合在一起，因此可能无法保证源域和目标域之间的充分对齐。

传统的”压缩“视角与”解耦“视角的对比

这些方法通过专门设计的约束对域相关信息进行高度压缩，以使得源域和目标域的受约束后的新表征(representation)之间无法相互区分；而时空和语义相关信息等也被充分压缩，以便使得这些新表征在分类任务上有着良好的预测结果。然而，由于多种信息混合在一起，在压缩过程中不可避免地会出现信息混淆(mix)和丢失(loss)，这可能会极大地危及最终的自适应性能。

方法

上述问题促使我们从解耦(disentanglement)的角度来处理视频UDA任务。我们的目标是在域适应过程中将域信息与其他信息分离，从而尽可能得消除源域和目标域之间的差异对预测任务的影响。

为了实现域解耦，我们首先考虑跨域视频的生成(generation)过程。我们假设一个视频序列是从两组潜在因子(latent factor)中生成出来的：一组因子由一系列随机变量组成，这些随机变量随时间而变化并编码与预测任务相关的语义信息；另一组因子则是静态的，将域相关信息引入到生成的视频中。

所提出的用于域解耦与迁移的(a)生成模型与(b)推理模型

上图展示了跨域视频的生成过程。其中，蓝色和红色节点(node)分别代表在个时间点上观察到的源域和目标域视频和。静态变量和遵循联合分布(joint distribution)，并且是特定于域本身的(domain-specific)。将二者中的任意一个与每个时间点的动态变量相结合，我们就可以构造出一个域上的一帧数据。注意，动态变量的序列在域之间是共享的并且是域不变的(domain-invariant)，它们也被用于最终的预测任务。

从上文叙述的生成模型的角度出发，我们提出了用于视频UDA任务的新框架：TranSVAE。该序列VAE结构被应用于模拟跨域视频的生成过程，其中包含的各个组件被用来确保域解耦始终服务于域适应这个目的。

TranSVAE框架示意图

首先，我们通过最小化两组潜在因子间的相互依赖(mutual dependence)来实现良好解耦，鼓励这两个因子集中的信息相互排斥，从而实现域相关信息和其他信息的解耦。然后我们考虑约束每个潜在因子集。对于预期为”域不变“的动态序列，我们通过使用在帧层级和视频层级的对抗学习来对齐它们。与此同时，我们对从源域数据中提取的添加了特定于任务本身的监督学习，以利用该域中的标注信息。对于而言，我们希望它是静态的和能够用于表征”特定域的“。因此，对比三元组损失(contrastive triplet loss)被用于对进行约束。

总得来说，TranSVAE框架的目标是对静态的域相关信息和动态的语义相关信息进行解耦，从而实现源域和目标域在时空层面的对齐。其中包括的四个组件均按照这种思路对模型的学习加以约束，它们之间的有效促进是使得源域和目标域成功对齐的关键。更多的技术细节请参阅TranSVAE论文。

实验结果

TranSVAE的性能在主流的视频UDA基线上进行了广泛的验证，这些基线包括：UCF-HMDB，Jester，和Epic-Kitchens。我们也通过对Sprites数据集中的"Huamn"和"Alien"角色进行动作迁移，进一步验证了域解耦的有效性。

对比实验

UCF-HMDB基线上的对比实验: TranSVAE取得了优于同期SoTA方法的性能

Jester和Epic-Kitchens基线上的对比实验: TranSVAE在各个任务上均大幅领先于同期SoTA方法

与近期的多模态方法相比，TranSVAE仅使用单模态数据便取得了更优的域适应结果

消融实验

将UCF迁移到HMDB上的消融实验结果

将HMDB迁移到UCF上的消融实验结果

解耦实验

在Sprites中的"Huamn"和"Alien"角色之间进行域解耦与迁移的示意

更多有关 TranSVAE 中的域解耦的实例，请参阅我们在 Hugging Face Spaces上制作的 live demo: https://huggingface.co/spaces/ldkong/TranSVAE

总结

这个工作提出一个名为TranSVAE的视频序列解耦框架，并被应用于视频数据的无监督域适应任务中。TranSVAE追求对静态的域相关信息和动态的语义相关信息进行解耦，从而更好的对齐源域和目标域。在主流的视频无监督域适应基线上，TranSVAE取得了优于同期各类单模态和多模态SoTA方法的成绩。

欢迎加入「域适应」交流群👇备注：域适应

OpenCV中文网公众号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字节&NUS开源TranSVAE：基于生成模型的视频无监督域适应框架

关注公众号，发现CV技术之美论文标题：Unsupervised Video Domain Adaptation: A Disentanglement Perspective机构：字节跳动AI Lab，新加坡国立大学论文链接：https://arxiv.org/abs/2208.07365项目主页：https://ldkong.com/TranSVAE开源代码：https://github.com/...
复制链接

扫一扫