Task: 视频文本检索
Setting:Unsupervised Domain Adaptation
所使用的数据集:ActivityNet-Captions、MSR-VTT、LSMDC、MSVD
经验风险最小化面临着两种类型的domain shift
- video content/style shift
- description distribution shift(通常是由产生每个域的注释者团队之间的描述风格的差异所驱动的)
作者提出了conceptAware-Pseudo-Query (CAPQ) framework用于跨域视频文本检索
- a concept preservation regulariser 旨在提高学习嵌入的可转移性
- a pseudo-labelling algorithm 旨在确保它们尽可能具有区别性,以便在没有描述分布的情况下提高目标域上的检索性能。
CAPQ由以下部分组成:
a feature extractor F,a cross-domain video encoder φvid ,a text encoder φtext,a concept selector ψC, a hallucinator ψH
来自source域的有标签的视频文本对和来自target域的无标签的视频
goal:学习更有鉴别性和可转移的特征,打破跨域的差异,学习一个更好的target域嵌入空间
Feature Extractor:
在图像分类或动作识别等任务上进行预训练的模型,并冻结作为特征extrator,用来提起source和target域视频特征
Descriptors F(vS) 和 F(vT)用来形成内容的通用表示(这是通过使用覆盖广泛语义概念的预训练模型来实现的)
【我觉得应该可以理解为一种单模态encoder】
Video and Text Encoder:
video encoder φvid将F(v)作为输入,并投影到视频文本联合嵌入空间
text encoder φtext首先使用预训练的word-level embeddings将每个query sentence t映射到一个特征向量集合,然后通过NetVLAD来聚合这些word-level embeddings,并将最终的文本特征投影到视频文本联合嵌入空间中
Transferable:
最小化concept preservation loss LP,目的是通过惩罚无法保留预训练模型提供的判别信号的联合空间嵌入来保留先前获得的知识。
Discriminative:
视频文本对-ranking loss
Concept Preservation(只在训练中使用)
使用一个concept selector ψC将generic video descriptor F(v)映射到一个概念分布上
(就比如:视频检索经常使用在ImageNet上进行图像分类的预训练模型,那么concept selector就相当于是预训练模型的最后线性层,将F(v)映射到ImageNet 1000个概念分布上)
为了在不同的域之间提供一个共同的信号,作者对source和target的generic video descriptors都执行该操作,在source域中,由于视频文本对是可获得的,因此作者要求对于给定的匹配视频文本对{ vS, tS} ,,它们应该映射到相同的概念分布上
接下来,作者使用预测得到的概念分布y作为一种信号来鼓励视频文本联合嵌入保存预训练模型所具有的概念知识,具体地,作者构建了一个hallucinator ψH (两层MLP),使得embeddings φvid 和 φtext的预测yˆ ∈ RC与 y 保持一致,对于视频和文本,作者使用了相同的ψH ,隐式的对齐两个不同的模态
最终,concept preservation loss表示为:
(在target域中,只有视频,没有对应的文本)
Discussion on Multi-Modality Features:
由于在视频文本检索任务中, 最近的一些工作是使用了多模态预训练模型特征,作者说明,通过使用Nm个特征提取器{F n, n ∈ [1, 2, ..., N M] } .,CAPQ同样可以直接适用于多模态setting,将公式(3)扩展为multi-concept preservation loss
Discriminative Joint Space Learning
使用contrastive margin loss来训练source域的视频文本对,来得到更有鉴别性的嵌入特征
作者提出改进联合视频-文本嵌入空间(由LS训练),以适应鉴别性target域检索的要求,提出了伪标签选择机制,具体地,从unbiased text embeddings φtext(tS)中选择,并将'best'文本嵌入 PT赋给target视频作为伪标签,然后使用second ranking loss LT(类似公式(5))进行优化,
Mutually-Exclusive Selection Algorithm:
(作者所说的无偏是指对特定的注释器分布无偏))
给定一个无偏文本嵌入φ text(tS),作者通过选择和target视频相似度分数最高的文本嵌入作为伪标签,
但是单单这样做会存在一个问题,尤其对于训练初期,对于target video vi的伪标签文本嵌入,也可能会和同时和其他视频vj产生更高的分数
因此作者设计了一种互斥伪标签选择,通过使用双向softmax操作,首先给定一个相似度矩阵S,沿着文本维度使用softmax,得到Stext,再沿着视频维度使用softmax,得到Svideo,然后将Stext和Svideo相成得到最终的相似度S'
最终,选择S'中分数最高的作为伪标签,作者说明,这是专为跨模态检索所涉及的,因为该方法首先查看所有候选文本和视频,建立平滑的相似度图,最后分配“最佳”伪文本,这些伪文本不是其他不同视频查询的最近邻,这也是与分类任务中伪标签的选择的关键不同之处
[我这里对于无标签的选择有点疑惑,如果存在这种极端问题,就是某些视频确实没有相关的的文本,或者说文本的相关度并不高呢,以及无偏文本集合的选择]
Experiment
- Video Shift: VisualEvents→MovieClips (split Video.)MSVD -> LSMDC
- Text Shift: AudioVisualEvents→MovieClips(split Text.)MSRVTT -> LSMDC
- Annotation Function Shift: MovieClips→Activities(splitAnnoF) LSMDC -> ActivityNet
- VisualEvents→Activities (splitHard) MSVD -> ActivityNet
Ablation
SO baseline (without adaptation)
伪文本选择作为一个单独的模块贡献了最显著的性能增益,这表明通过最小化伪文本查询和目标视频之间的第二排名损失来细化联合文本-视频嵌入空间是有价值的
第二行中,作者报告了CAPQ-preserve (no target videos),只在source视频和文本中使用概念保存损失(没有伪文本的选择),在这种没有target视频的情况下,模型依然超出了baseline,这表明,使特征嵌入具有通用性是有用的,但对于跨域的视频检索任务是不够的
在图4的最后一行中,作者展示了一个CAPQ不够有效的示例。在这种情况下,由于对目标视频中出现的概念的覆盖不够,伪文本方法没有很高的实用性。然而,所选的伪文本在这种设置中仍然提供了一些好处(特别是类似的场景(房间/公寓),并且仍然可以被CAPQ正确识别,从而比SO模型提供了一些性能提升)。