2019_Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval_CVPR

Motivation

以往的跨模态检索工作都是一对一映射关系,对于语义不明或者多语义的文本和视觉图像/视频效果不好,下图是一个例子,文本中表达的含义和视频中表达的含义非常模糊的,再比如一句话只是描述了图像中某一个区域,作者提出使用一对多的方法,将单例(文本或者图像视频等)映射到多级特征中,分成K个表示,就是一对多的关系建模,并且通过local和global的方式去构建模型,对损失函数也做了相应修改,达到了更好的结果,并且提出了一种具有ambiguous特点的数据集MRW,这种数据集是:视频中是对一句话文本的反应。

 

Contribution

提出PIE-Net网络用以解决上述语意模糊、文本和图像视频部分关联的问题

证明了在image-text和video-text的有效性

提出了新的数据集用于开展视频和文本之间的关系存在语义不明这种新的方向

Method

首先需要理解下图,传统的方式是将video和text都变成一个向量,对完整的向量计算相似度,本文就提出一个实例可以用多个实例表针表示,视频和文本特征是多个,可能里面只有部分是相关联的,相当于放松了要求。

 

 

作者提出PVSE框架,同时利用局部特征和全局特征,文本和视频用的都是一样的PIE-Net网络,权重不共享,对于视频,每一帧输入预训练的网络得到每一帧的特征作为局部特征参与后续,并且将得到的这些特征参与双向GRU得到全局特征,后面通过local feture transfomer和残差学习得到最后的embedding。

损失函数有三项,包括用Multiple Instance Learning (MIL) framework的MIL loss、Diversity Loss和Domain Discrepancy Loss。

MRW数据集

 

 

这个数据集是直接从https://www.reddit.com/r/reactiongifs 做的,算是比较粗糙的

Experiments

 

 

可以看出在做的比较多的image-text的任务上指标还可以,但是在video-text的指标上都普遍很低,特别是MRW数据集,实际上跨模态的video-text也是2018年才开始的,发展也才刚起步,作者在paper中也说了这一点。

 

githubhttps://github.com/yalesong/pvse

可以参考:https://blog.csdn.net/m0_37169880/article/details/105437784

对视频进行二进制存储的一个代码库:https://github.com/TwentyBN/GulpIO

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值