文本端:
使用预训练的part-of-speech tagging (POS) models来找出文本中的名词和动词,然后通过sentence generation strategy (SGS)转换成名词句子和动词句子,使用通过CLIP预训练得到的Bert将它们编码成语义特征
视频端:
采用通过CLIP预训练的Vit作为bottom feature提取器,Fusion,entity和action experts用来从bottom feature中学习特定的语义匹配
Sentence generation strategy.
- recombining keywords (RKW),
- averaging keywords embedding (AKWE),
- masking unconsidered words (MUW),
Visual Frames Aggregation Scheme.
- Mean pooling
- Squeeze-and-Excitation attention(se attention)
- Self-attention
Experts and Gating network.
Gating network 和fusion expert采用 se attention
Entity expert 和action expert采用self attention时,模型性能最好
作者发现,fusion expert的输出会导致在entity matching 和 action matching这两个任务中添加gate时,会过拟合,因此作者只在fusion expert中采用gating机制
Gate network:
Loss function.
Dual softmax loss是基于对称交叉熵损失函数的
原始的对称交叉熵损失:
其中,t分别表示sentence matching, entity matching, action matching,sim为余弦相似度
DSL,因此了先验来修正相似度分数
(这个先验矩阵其实就是交叉相似度,原始相似度计算的是vi和所有句子的相似度分数,先验矩阵计算的为si和所有视频的相似度分数)
Experiment
Ablation
通过引入先验概率矩阵,证明了交叉方向的约束可以修正部分边界分数