ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval# ECCV 2022 | LAFF

在这里插入图片描述

主要内容

本文主要讨论了文本检索视频任务中的特征融合问题。提出了一种基于轻量但是有效的特征融合模块LAFF构建的跨模态双端融合架构。

这一领域中过往的方法中,特征融合主要有这些:

  • 早期融合:典型的是特征向量的拼接。随着特征数量的增加,向量拼接方法面临着维度灾难。
  • 后期融合:通过并行学习多个特征特定的公共空间,通过平均、经验性的加权或者是MoE集成策略等来组合,从而获得最终的相似性。为每个特征构造公共空间的策略则缺乏特征间的交互。

另外,之前的工作中都只重点关注视频端或者是文本端。

除了这些工作之外,当前MHSA展现出了良好的效果。这类检索任务中,视频特征提取自2DCNN和3DCNN,这也更适合从不同方面描述视频内容,因此作者们推测优化它们的组合,相比于建模他们之间的相似性而言是要更加适合的。而基于特征之间的相似性的MHSA,会趋向于出现分组效应,即彼此相关的特征会被更多的关注,从而导致相关但是相对要若的特征将会被过度强调。因此,尽管 MHSA 在不同环境中的流行率很高,但作者认为 其对于当前任务来说不是最佳的。

本文的重点在于开发了一种双端并重的框架,即视频端和文本短都设置了多种特征的集成,同时设计了一种简单有效的特征融合策略,由于也是特征级别的融合,所以可以看做是一种早期融合策略。并且考虑到视频和文本内容的高度复杂性,作者们也通过多头策略并行集成了多个LAFF到模型中,从而构建了多个隐式的公共空间,从这一角度而言提出的方法也具有了后期融合的形式,所以本文的方法总体来看是一种混合形式的融合范式。

基于LAFF的双模态相似性计算

在这里插入图片描述
在这里插入图片描述

  • 对于每个LAFF而言,都会利用所处模态中的所有特征。输入的k个不同的1xd特征经过线性层得到相同的维度。由于 LAFF 中非线性激活的输出是计算余弦相似度,在这项工作中使用 tanh。之后拼接得到kxd。
  • 通过线性层将d降维到1,并在k上计算softmax,从而获得这k个特征各自的独立权重后加和得到输出。
  • 双模态之间h个LAFF对的输出计算相似性,之后通过对h个基于余弦形式的相似度求和后获得最终相似性,用于实际的检索任务。所有LAFF嵌入的维度之和是固定的从而确保了训练参数的数量的恒定,因此也不能算是一种集成策略。

在这里插入图片描述
对于LAFF而言,其不仅可以用于集成来自不同视频编码器的最终特征,还可以用于集成单个编码器提取的多级特征以用于后续视频级别的集成。

实验结果

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值