Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
当前的问题及概述:
无监督域适应(UDA)方法经常用于源域和目标域之间的对抗训练。但在一个环境中培训一个模型,然后部署到另一个环境中,由于不可避免的域转换,会导致性能下降。而且这些方法并没有探索视频在每个域中的多模态特性。
本文提出了多模态动作识别的UDA方法。改进的目标域性能是通过对源域和目标域同时进行多模态自监督来实现的,该自监督与多模态域鉴别器共同优化。如下图:
模型及loss:
Multi-Modal Self- Supervised Adversarial Domain Adaptation (MM-SADA)网络框架:
源域和目标域采用用一个结构,通过two-stream结构分别提取RGB和Optical Flow(光流)特征,并加入了一个自监督对齐分类器C(只在标记过的源域中存在),它决定了是否从相同或不同的动作中采样以学习模态一致性。每个模态使用一个域鉴别器来预测给定图例来自哪个域。并通过GRL梯度反向传播。
2.1Multi-modal Action Recognition
首先模态分类器C loss采用交叉熵loss,σ 为softmax:
2020 CVPR之视频动作识别:Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
最新推荐文章于 2024-05-01 11:05:43 发布