Localizing Moments in Video with Natural Language论文笔记

原创于 2023-07-23 16:10:06 发布

· 457 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

0.文献地址

2017 Localizing Moments in Video with Natural Language

1.摘要

提出了Moment Context Network（MCN）有效地定位视频中的自然语言查询
又提出了唯一识别对应时刻的文本描述的数据集DiDeMo

2.引言

作者提出了问题如果查询特定的时间段，例如当女孩摔倒后又开始有弹性地跳起来时，仅仅通过动作、对象或属性关键字来引用时刻可能不能唯一地标识它。也就是说时刻并不是由单个对象或活动来定义的，而是可以由与其他操作相关的特定操作发生的时间和方式来定义。
于是作者提出了用自然语言来定位视频中特定的时刻。因此，我们提出了时刻上下文网络（MCN），它包括一个全局视频特征来提供时间上下文和一个时间端点特征来指示视频中何时发生一个时刻。

3.模型结构

在这里插入图片描述

3.1Visual Temporal Context Features

local video features
global video features
temporal endpoint features

首先使用深度卷积网络为每个视频帧提取高级视频特征，然后在特定的时间跨度内对池视频特征进行平均。局部特征是通过在特定时刻内汇集特征来构建的，而全局特征是通过对视频中的所有帧进行平均来构建的。
当视频中出现一个时刻时，可以象征一个时刻是否与一个特定的查询相匹配。为了对这个时间信息进行编码，我们包含了时间端点特征，它表示一个候选矩的起始点和端点（归一化到区间[0,1]）
local video features，global video features，temporal endpoint features三合一
提取RGB帧（记为Pθ V）和光流帧（记为Pθ F）的时间上下文特征时，可以学习单独的权值。

3.2Language Features

用LSTM

3.3模态融合

在这里插入图片描述

3.4Rank损失函数

intra-loss:在同一个视频内不同的时间节点进行对比

τ_i表示正样本，也就是与查询相关的视频片段。而Γ\τ_i，表示所有的负样本集合，也就是不相关的视频片段
inter-loss:在不同的视频同一个时间节点进行对比

intra-loss和inter-loss组合：

4.数据集介绍

5.实验结果

博客等级

码龄5年

58
原创

11
点赞

76
收藏

13
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Attentive Moment Retrieval in Videos论文笔记

最新评论

Attentive Moment Retrieval in Videos论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
TALL论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Cross-modal Moment Localization in Videos论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
李沐多模态串讲笔记
CSDN-Ada助手: 尊敬的博主，我很感谢你为我们带来了这篇精彩的“李沐多模态串讲笔记”，这篇文章结合了讲解和实践，思路清晰，通俗易懂，让我们对多模态数据处理有了更深入的理解和认识。你花费了大量的时间和精力，用心创作这篇文章，让我们读者受益匪浅，感谢你的用心分享！下一篇你可能会创作关于“图神经网络在多模态数据处理中的应用”，这是一个备受关注的话题。随着数据处理和分析的不断发展，图神经网络作为一种新型的深度神经网络，其应用越来越广泛，特别是在图像、视频、音频等方向上有了很多的探索和应用。我们期待着你能用你丰富的知识和经验，带领我们探索图神经网络在多模态数据处理中的应用和前景。再次感谢你的付出和分享！
李沐读论文笔记--大模型时代下做科研的四个思路
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。