MAN_ Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment

MAN_ Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment

解决问题:根据自然语言的一句话检索视频所对应的帧片段,并同时考虑到语义错位(e.g. the second time)和结构错位(e.g. after)。

主要思想:a language encoder, a video encoder, IGAN (an iterative graph adjustment network)

a language encoder:使用Glove Word2Vec预训练,使用LSTM得到文本特征,利用一维的卷积层生成动态滤波器,与video encoder生成的特征结合生成有效的结构块Mnorm

a video encoder:使用I3D得到视频特征fv,然后在与上个模型生成结果相结合fv'。解决了语义错位,让自然语言与视频对齐。
IGAN (an iterative graph adjustment network):让fv'进行一个pooling层,以及k个卷积层生成时间维数递减的特征映射序列。引入了基于GCN的迭代图调整网络(IGAN)框架,该框架具有可学习的邻接矩阵,能够通过学习所有的边的权值同时推断出一个图,并相应地更新每个节点的表示形式XT。IGAN的输入X0是特征映射序列。

最终,我们输出的动态过滤器与XT计算匹配分数。

最小化L损失,训练模型。

创新点:(1)将语言描述作为动态滤波器自然地集成到一个端到端的可训练的全卷积网络中来解决语义错位。(2)据作者介绍本文是第一个在视频中利用图结构片段关系进行时间推理的,提出了IGAN模型来显式地建模时间结构和改进片段表示。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值