MAN_ Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment

最新推荐文章于 2019-12-13 17:20:21 发布

HYY233

最新推荐文章于 2019-12-13 17:20:21 发布

阅读量547

点赞数

分类专栏：文献阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HYY233/article/details/103530726

版权

文献阅读专栏收录该内容

9 篇文章 1 订阅

订阅专栏

MAN_ Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment

解决问题：根据自然语言的一句话检索视频所对应的帧片段，并同时考虑到语义错位（e.g. the second time）和结构错位（e.g. after）。

主要思想：a language encoder, a video encoder, IGAN (an iterative graph adjustment network)

a language encoder:使用Glove Word2Vec预训练，使用LSTM得到文本特征，利用一维的卷积层生成动态滤波器，与video encoder生成的特征结合生成有效的结构块Mnorm。

a video encoder：使用I3D得到视频特征fv，然后在与上个模型生成结果相结合fv'。解决了语义错位，让自然语言与视频对齐。
IGAN (an iterative graph adjustment network)：让fv'进行一个pooling层，以及k个卷积层生成时间维数递减的特征映射序列。引入了基于GCN的迭代图调整网络(IGAN)框架，该框架具有可学习的邻接矩阵，能够通过学习所有的边的权值同时推断出一个图，并相应地更新每个节点的表示形式XT。IGAN的输入X0是特征映射序列。

最终,我们输出的动态过滤器与XT计算匹配分数。

最小化L损失，训练模型。

创新点：（1）将语言描述作为动态滤波器自然地集成到一个端到端的可训练的全卷积网络中来解决语义错位。（2）据作者介绍本文是第一个在视频中利用图结构片段关系进行时间推理的，提出了IGAN模型来显式地建模时间结构和改进片段表示。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。