论文笔记:Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

文本端:

使用预训练的part-of-speech tagging (POS) models来找出文本中的名词和动词,然后通过sentence generation strategy (SGS)转换成名词句子和动词句子,使用通过CLIP预训练得到的Bert将它们编码成语义特征

视频端:

采用通过CLIP预训练的Vit作为bottom feature提取器,Fusion,entity和action experts用来从bottom feature中学习特定的语义匹配

Sentence generation strategy.

  • recombining keywords (RKW),
  • averaging keywords embedding (AKWE),
  • masking unconsidered words (MUW),


Visual Frames Aggregation Scheme.

  • Mean pooling

  • Squeeze-and-Excitation attention(se attention)

  • Self-attention

Experts and Gating network.

Gating network 和fusion expert采用 se attention

Entity expert 和action expert采用self attention时,模型性能最好

作者发现,fusion expert的输出会导致在entity matching 和 action matching这两个任务中添加gate时,会过拟合,因此作者只在fusion expert中采用gating机制

Gate network:

Loss function.

Dual softmax loss是基于对称交叉熵损失函数的

原始的对称交叉熵损失:

其中,t分别表示sentence matching, entity matching, action matching,sim为余弦相似度

DSL,因此了先验来修正相似度分数

 (这个先验矩阵其实就是交叉相似度,原始相似度计算的是vi和所有句子的相似度分数,先验矩阵计算的为si和所有视频的相似度分数)

Experiment 

 

Ablation

 

通过引入先验概率矩阵,证明了交叉方向的约束可以修正部分边界分数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值