摘要
细粒度的动作识别数据集会表现出环境偏差,其中从有限数量的环境中捕获了多个视频序列。由于不可避免的域转移,在一个环境中训练模型并在另一个环境中部署会导致性能下降。无监督域适应(UDA)方法经常利用源域和目标域之间的对抗训练。但是,这些方法尚未探索每个域内视频的多模式性质。在这项工作中,除了对抗性对齐之外,本文还将模式的对应性作为UDA的一种自我监督的对齐方法,如图1示。
图1. 本文针对多模式提出的UDA方法动作识别。通过对来源和来源的多模式自我监督来改善目标域性能从而实现多个目标域标识符同时优化
本文使用两种模式在大型数据集EPIC-Kitchens中的三个厨房上测试了本文的方法通常用于动作识别的:RGB和Optical Flow。本文展示了多模式自我监督与仅进行源代码培训相比,单独提高性能平均增长2.4%。然后,本文将对抗训练与多模式自我监督相结合,表明本文的应用程序比其他UDA方法要好3%。
1.引言
与“准备饭菜”这样的粗粒度动作相比,细粒度动作识别是识别动作和交互作用(例如“切番茄”或“拧紧螺栓”)的问题。这在家庭和工业领域的辅助技术中具有广泛的应用。有监督的方法依赖于收集大量带有标签的示例来训练判别模型。但是,由于难以收集和注释此类细粒度的动作,因此许多数据集会收集较长的未修剪序列。
将在标记的源域上学习到的模型主要转移到未标记的目标域,这称为非监督域自适应(UDA)。最近,在其他视觉任务中