《Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning》---CVPR2020 论文阅读

最新推荐文章于 2024-08-12 21:37:19 发布

李加贝_

最新推荐文章于 2024-08-12 21:37:19 发布

阅读量182

点赞数

文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38990652/article/details/120194433

版权

作者提出了一种基于注意的多模态融合模型来整合音频和视频信息。并设计了不同的融合策略来对视频和音频进行整合，证明了音频在视觉任务中的重要性

提取audio，video，captions的特征，将它们输入到句子定位器中。然后在这些特征上应用一个跨注意力。使用注意力特征融合机制，紧接一个全连接层来产生时间segments

Caption generator将这三个特征和得到的时间片段作为输入，它基于时间段对音频和视频特征进行soft mask clipping剪切，并使用上下文融合技术生成多模态上下文特征。然后通过decoder生成caption

Weakly Supervised Model

没有视频和字幕间的时间对齐ground truth

作者做出了一对一的对应假设：每一个字幕描述一个时间segment，每一个时间segment只对应一个caption

该模型包括两个网络模块：一个句子定位器和一个字幕生成器

给定一个字幕，句子定位器将会产生一个时间片段，对应于给定的时间片段，字幕生成器将会产生一个字幕

Sentence Localizer

给定一个context O（视频或者音频）和编码后的caption C，句子定位器将在O中回归得到一个时间片段S

首先应用一个cross attention在context和caption中，进行attention feature 融合，然后使用一个全连接神经网络来生成时间片段

如果是多模态训练的话，Attc只计算视觉模态和caption的，并且生成视频attention Attv和音频Attention Atta

如果是单模态方法的话，caption attention Attc计算视频或音频和字幕之间的

Caption Generator

字幕生成器首先在contexts上应用mask clipping来得到segments，然后使用一个context fusion mechanism来融合裁剪的上下文

Context Fusion

融合视频和音频特征

Training Loss

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning》---CVPR2020 论文阅读

作者提出了一种基于注意的多模态融合模型来整合音频和视频信息。并设计了不同的融合策略来对视频和音频进行整合，证明了音频在视觉任务中的重要性提取audio，video，captions的特征，将它们输入到句子定位器中。然后在这些特征上应用一个跨注意力。使用注意力特征融合机制，紧接一个全连接层来产生时间segmentsCaption generator将这三个特征和得到的时间片段作为输入，它基于时间段对音频和视频特征进行soft mask clipping剪切，并使用上下文融合技术生...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。