Localizing Moments in Video with Natural Language论文笔记

0.文献地址

2017 Localizing Moments in Video with Natural Language

1.摘要

  • 提出了Moment Context Network(MCN)有效地定位视频中的自然语言查询
  • 又提出了唯一识别对应时刻的文本描述的数据集DiDeMo

2.引言

作者提出了问题如果查询特定的时间段,例如当女孩摔倒后又开始有弹性地跳起来时,仅仅通过动作、对象或属性关键字来引用时刻可能不能唯一地标识它。也就是说时刻并不是由单个对象或活动来定义的,而是可以由与其他操作相关的特定操作发生的时间和方式来定义。
于是作者提出了用自然语言来定位视频中特定的时刻。因此,我们提出了时刻上下文网络(MCN),它包括一个全局视频特征来提供时间上下文和一个时间端点特征来指示视频中何时发生一个时刻。

3.模型结构

在这里插入图片描述

3.1Visual Temporal Context Features

  • local video features

  • global video features

  • temporal endpoint features

    首先使用深度卷积网络为每个视频帧提取高级视频特征,然后在特定的时间跨度内对池视频特征进行平均。局部特征是通过在特定时刻内汇集特征来构建的,而全局特征是通过对视频中的所有帧进行平均来构建的。
    当视频中出现一个时刻时,可以象征一个时刻是否与一个特定的查询相匹配。为了对这个时间信息进行编码,我们包含了时间端点特征,它表示一个候选矩的起始点和端点(归一化到区间[0,1])
    local video features,global video features,temporal endpoint features三合一
    提取RGB帧(记为Pθ V)和光流帧(记为Pθ F)的时间上下文特征时,可以学习单独的权值。

3.2Language Features

用LSTM

3.3模态融合

在这里插入图片描述

3.4Rank损失函数

  • intra-loss:在同一个视频内不同的时间节点进行对比
    在这里插入图片描述
    在这里插入图片描述
    τ_i表示正样本,也就是与查询相关的视频片段。而Γ\τ_i,表示所有的负样本集合,也就是不相关的视频片段
  • inter-loss:在不同的视频同一个时间节点进行对比
    在这里插入图片描述
    intra-loss和inter-loss组合:
    在这里插入图片描述

4.数据集介绍

5.实验结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值