EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

最新推荐文章于 2021-11-11 15:04:37 发布

smile909

最新推荐文章于 2021-11-11 15:04:37 发布

阅读量450

点赞数

分类专栏： EMNLP 2020

本文链接：https://blog.csdn.net/smile909/article/details/116770524

版权

动机多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章，这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。自动生成多模态摘要，即选择合适的视频封面帧，生成合适的文章文本摘要，可以帮助编辑节省时间，读者更有效地做出决策。在实际应用中，输入通常是由数百帧组成的视频，且通常需要选择封面图。因此，视频中的时间依赖性不能简单地用静态编码方法来建模。视频的封面图片应该是整个视频的突出点，而文本摘要也

摘要由CSDN通过智能技术生成

动机

在这里插入图片描述

多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章，这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。
自动生成多模态摘要，即选择合适的视频封面帧，生成合适的文章文本摘要，可以帮助编辑节省时间，读者更有效地做出决策。
在实际应用中，输入通常是由数百帧组成的视频，且通常需要选择封面图。因此，视频中的时间依赖性不能简单地用静态编码方法来建模。
视频的封面图片应该是整个视频的突出点，而文本摘要也应该从源文章中提取重要信息。由于视频和文章所关注的是同一事件，报道内容相同，这两种信息格式在总结过程中相互融合。然而，由于视频和文章来自两个不同的空间，如何充分挖掘视频中帧的时间依赖性与文章语义之间的关系仍然是一个难题。

方法

简介

本文提出了一种新的任务–基于视频的多模态输出的多模态概括（VMSMO），它从新闻视频中选取封面帧，同时生成新闻文章的文本摘要。本文提出了一种基于双交互的多模态概括器（DIMS）模型，该模型通过在总结过程中采用双交互策略，同时对文章和视频进行概括学习。具体地说，作者首先使用递归神经网络(RNN)对文本和视频进行编码。注意，通过编码RNN，视频中图像之间的空间和时间依赖关系被捕获。接下来，作者设计了双交互模块，让视频和文本充分交互。具体地说，作者提出了一种条件self-attention机制，在文章的指导下学习局部视频表示，并提出了一种全局attention机制，学习视频感知文章和文章感知视频的高级表示。最后，多模态生成器生成文本，并根据最后一步的融合表示提取封面图像。为了评价模型的性能，作者从社交媒体网站上收集了第一个与视频封面相关的大型新闻文章摘要数据集。在这个数据集上进行的大量实验表明，DIMS在常用度量中的性能显著优于最先进的基线方法。

问题表述

对于输入的新闻文章X={x₁，x₂, … ,x_Td}，其中有 T_y个单词，作者假设有一个GT（Ground Truth）文本概括Y={y₁, y₂, … , y_Ty}，其中有T_y个单词。同时，有一个与文章相对应的新闻视频V，作者假定有一个GT封面图片C，它通过从视频内容中提取最重要的帧获得。对于给定的文章X和相应的视频V，通过进行深度互动，作者的模型强调两个输入的突出部分。目标是生成一个文本摘要Y^’，它成功抓住文章要点，并选择一个涵盖视频要点的帧图片C^’。

模型

在这里插入图片描述

作者提出了作者的基于双交互的多模态概括器(DIMS)，它在图2中可以分为三个部分：

1）特征编码器由一个文本编码器和一个视频编码器组成，分别对输入的文章和视频进行编码。

2）双交互模块进行深度交互，包括视频片段和文章之间的条件self-attention和全局attention机制来学习两个输入的不同层次的表示。

3）多生成器通过结合融合信息生成文本并选择视频封面。

具体包括：

特征编码器。

1）文本编码器。为了对输入新闻文本X的语义进行建模，作者首先使用一个单词嵌入矩阵e映射每个词x_i的一个独热表示到一个高维向量空间中。然后，为了从这些嵌入表示中编码上下文信息，作者使用双向递归神经网络（Bi-RNN）来建模单词之间的时间交互：

其中h_t^x表示X在Bi-RNN中第t步的隐藏状态。作者选择长时记忆网络(LSTM)作为Bi-RNN单元。

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

动机多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章，这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。自动生成多模态摘要，即选择合适的视频封面帧，生成合适的文章文本摘要，可以帮助编辑节省时间，读者更有效地做出决策。在实际应用中，输入通常是由数百帧组成的视频，且通常需要选择封面图。因此，视频中的时间依赖性不能简单地用静态编码方法来建模。视频的封面图片应该是整个视频的突出点，而文本摘要也
复制链接

扫一扫

专栏目录