跨模态检索 | Visual Representation Learning

这篇论文最近被TCSVT接收,其主要任务为视频文本检索,并主要针对于视频特征表示学习。由于人们阅读时,通常会首先阅读概述,然后在进行精读,受这一阅读策略的启发,本文提出了一种视频特征学习方法(RIVRL)来表示视频, 它包含两个分支:一个预览分支和一个精读分支,顾名思义,预览分支用来捕捉视频的概述信息,精读分支用来捕捉视频中更加深层次的信息。

然而在该任务中,如图1所示,类似的视频特征学习的多分支范式往往都是独立的,然而作者认为,尽管这种方法取得了很好的性能,但作者认为这样的独立多分支范式是次优的。根据作者的观察,当两个分支独立学习时,两分支都倾向于学习视频中的主要对象,而忽略它具体的关键细节。因此,为了加强多个分支之间的互补性,作者设计了预览感知注意力,使得精读分支可以感知到预览分支所捕捉到的视频的概述信息,以捕捉视频中更加精确且细粒度的视频信息。

Method

Previewing Branch

该分支主要用来捕捉视频中的概述信息,是一个轻量级的分支,通过双向GRU来提取一个序列特征 

 ,然后将其进行平均池化得到一个向量特征  , 

Intensive-Reading Branch

该分支主要用来学习更深次的视频特征信息,受n-gram语言模型的启发,作者将n个连续的帧作为一个视频片段,其主要通过使用一个特定大小的滑动窗口将视频划分成一个片段序列,作者这里使用了多个不同大小的滑动窗口,进一步得到了多个不同长度的片段特征序列,作为多粒度的特

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值