论文笔记 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

Hollyprince

已于 2024-01-06 08:19:43 修改

阅读量142

点赞数 1

文章标签：深度学习人工智能自然语言处理神经网络计算机视觉

于 2023-12-28 20:41:43 首次发布

原文链接：https://blog.csdn.net/smile909/article/details/116770524

版权

本文提出了一种新的任务VMSMO，通过DIMS模型处理视频与文章的交互，生成新闻摘要并选择封面帧。DIMS利用双交互机制和自注意力、全局注意力来捕捉时序依赖和语义关联。实验证明DIMS在自动和人工评估中优于现有方法。

摘要由CSDN通过智能技术生成

原文链接，感谢原作者
EMNLP 2020

目的

在这里插入图片描述

多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章，这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。
自动生成多模态摘要，即选择合适的视频封面帧，生成合适的文章文本摘要，可以帮助编辑节省时间，读者更有效地做出决策。
在实际应用中，输入通常是由数百帧组成的视频，且通常需要选择封面图。因此，视频中的时间依赖性不能简单地用静态编码方法来建模。
视频的封面图片应该是整个视频的突出点，而文本摘要也应该从源文章中提取重要信息。由于视频和文章所关注的是同一事件，报道内容相同，这两种信息格式在总结过程中相互融合。然而，由于视频和文章来自两个不同的空间，如何充分挖掘视频中帧的时间依赖性与文章语义之间的关系仍然是一个难题。

方法

简介

本文提出了一种新的任务–基于视频的多模态输出的多模态概括（VMSMO），它从新闻视频中选取封面帧，同时生成新闻文章的文本摘要。本文提出了一种基于双交互的多模态概括器（DIMS）模型，该模型通过在总结过程中采用双交互策略，同时对文章和视频进行概括学习。具体地说，作者首先使用递归神经网络(RNN)对文本和视频进行编码。注意，通过编码RNN，视频中图像之间的空间和时间依赖关系被捕获。接下来，作者设计了双交互模块，让视频和文本充分交互。具体地说，作者提出了一种条件self-attention机制，在文章的指导下学习局部视频表示，并提出了一种全局attention机制，学习视频感知文章和文章感知视频的高级表示。最后，多模态生成器生成文本，并根据最后一步的融合表示提取封面图像。为了评价模型的性能，作者从社交媒体网站上收集了第一个与视频封面相关的大型新闻文章摘要数据集。在这个数据集上进行的大量实验表明，DIMS在常用度量中的性能显著优于最先进的基线方法。

问题表述

对于输入的新闻文章X={x₁，x₂, … ,x_Td}，其中有 T_y个单词，作者假设有一个GT（Ground Truth）文本概括Y={y₁, y₂, … , y_Ty}，其中有T_y个单词。同时，有一个与文章相对应的新闻视频V，作者假定有一个GT封面图片C，它通过从视频内容中提取最重要的帧获得。对于给定的文章X和相应的视频V，通过进行深度互动，作者的模型强调两个输入的突出部分。目标是生成一个文本摘要Y^’，它成功抓住文章要点，并选择一个涵盖视频要点的帧图片C^’。

模型

在这里插入图片描述

作者提出了作者的基于双交互的多模态概括器(DIMS)，它在图2中可以分为三个部分：

1）特征编码器由一个文本编码器和一个视频编码器组成，分别对输入的文章和视频进行编码。

2）双交互模块进行深度交互，包括视频片段和文章之间的条件self-attention和全局attention机制来学习两个输入的不同层次的表示。

3）多生成器通过结合融合信息生成文本并选择视频封面。

具体包括：

特征编码器。

1）文本编码器。为了对输入新闻文本X的语义进行建模，作者首先使用一个单词嵌入矩阵e映射每个词x_i的一个独热表示到一个高维向量空间中。然后，为了从这些嵌入表示中编码上下文信息，作者使用双向递归神经网络（Bi-RNN）来建模单词之间的时间交互：

其中h_t^x表示X在Bi-RNN中第t步的隐藏状态。作者选择长时记忆网络(LSTM)作为Bi-RNN单元。

2）视频编码器。一段新闻视频通常持续几分钟，长达数百帧。直观地说，一个视频可以分成几个片段，每个片段对应不同的内容。因此，作者选择对视频进行分层次地编码。更具体地说，作者将视频中的帧平均地划分成若干段，并使用low-level帧编码器和high-level片段编码器来学习分层表示。

帧编码器。作者利用Resnet-v1模型对帧进行编码，以缓解梯度消失并降低计算成本：

其中m_jⁱ是第i个片段中的第j帧，F_v(·)是线性变换函数。

片段编码器。如前所述，它是对视频中图像的连续性建模很重要，通过一种静态编码器策略是无法捕获的。由于它在利用帧间的时间依赖性方面的优势，作者采用RNN网络作为分段编码器：

S_jⁱ表示Bi-RNN中关于片段s_i的第j步的隐藏状态，最终隐藏状态S_Tfⁱ表示片段s_i的总体表示，其中T_f为一个片段中的帧数。
双交互模块。视频的封面图像应该包含整个视频的关键点，而文本摘要还应包括从源文章中提取的重要信息。因此，这两种信息格式在概括过程中相互补充。在本模块中，作者在视频和文章之间进行深度交互，共同建模视频和文本语义的时间依赖关系。该模块包括获取视频片段内局部语义信息的条件self-attention机制和从一种高的层次处理新闻文本与视频之间语义关系的全局attention机制。

1）条件self-attention机制。传统的self-attention由于以距离无关的方式能灵活地将两个要素联系起来，因此可以用来获得文本视频表征。然而，语义理解往往依赖于比成对依赖更复杂的依赖关系，特别是对给定前提的条件依赖关系。因此，在VMSMO任务中，作者根据输入的文本信息来获取视频的局部语义信息。

作者的条件self-attention模块如图3所示，由N个相同层的堆栈和一个条件层组成。相同层对局部视频片段进行编码学习，而条件层根据视频片段与文章的关系学习为视频片段分配高的权重。作者首先使用一个全连接层以投影每个片段表示S_Tfⁱ到查询Qⁱ、键Kⁱ和值Vⁱ中。然后，缩放点积self-attention（scaled dot-product self-attention）被定义如下：

接下来，作者重点介绍在文章的指导下视频的突出部分。将文章信息h_Td^x作为条件，在各个片段表示S_Tfⁱ的attention得分被计算如下：

最终的条件片段表示S_Tf^c被表示为β_i^ˆS_i。

2）全局attention机制：全局attention模块基于在视频片段上的文章表征并将文章的信息融合到视频中，得到一个文章感知的视频表示和一个视频感知的文章表示。在形式上，作者利用双向attention机制来获得编码文本表示h_t^x和编码段表示S_Tfⁱ之间的co-attention：

作者用E_i^t来表示在第i个视频片段的第t个单词。为了学习文本和片段信息之间的对齐，视频感知文章^ˆh_t^x和文章感知视频^ˆS_i^c的全局表示计算如下：
多生成器。在VMSMO任务中，多生成器模块不仅需要生成文本摘要，还需要选择视频封面。

1）文本摘要生成。对于第一个任务，作者使用输入文本h_Td^x的最终状态表示作为RNN解码器的初始状态d₀，第t个生成过程如下：

其中d_t是第t个解码步骤的隐藏状态，并且h_t-1^c是通过标准attention机制计算的上下文向量。

为了利用文章表示H_t^x和视频感知的文章表示^ˆh_t^x的优势，作者使用一个“editing gate”来决定每一方应该关注多少信息：

然后上下文向量h_t-1^c被计算如下：

最后，利用解码器状态d_t拼接上下文向量h_t-1^c，并馈入线性层以获取生成的单词分布P_v：

作者还为模型配备了指针网络来处理不在词汇表的问题。文本摘要生成的损失是目标单词y_t的负对数似然：

2）封面帧选择器。基于分层视频表示选择封面帧，即原始帧表示M_jⁱ和条件片段表示S_i^c以及文章感知片段表示^ˆS_i^c：

其中y_i,j^c为候选帧的匹配分数。这里的融合门γ_f¹和γ_f²由最后一个文本编码器隐藏状态h_Td^x来确定：

作者用成对hinge损失来衡量选择精度：

其中y_negative^c和y_positive^c分别对应于负样本和GT帧的匹配分数。L_pic中的边际是hinge损失中的重缩放边际。模型的总损失为：

数据集

据作者所知，目前没有关于VMSMO任务的大规模数据集，作者从微博中收集了关于VMSMO任务的第一个大规模数据集，中国主流媒体大多有微博帐户，并且他们在他们的帐户中发布了带有活跃视频和文章的最新消息，相应地，作者的每一个数据样本都包含一篇文章和一个带有文本摘要的视频以及一张封面图片。平均视频时长为一分钟，视频帧率为25 fps。正文部分，文章平均长度为96.84单词，正文摘要平均长度为11.19单词。总体而言，数据集中有184,920个样本，分为180,000个样本的训练集、2,460个样本的验证集和2,460个样本的测试集。

贡献

作者提出了一种新的基于视频的具有多模态输出的多模态概括(VMSMO)任务，为视频选择适当的封面帧并生成文章的适当文本摘要。
提出了一种基于双交互的多模态概括器(DIMS)模型，该模型将视频的时间依赖与文章的语义意义联合建模，同时生成带有视频封面的文本摘要。
作者构造了一个VMSMO的大规模数据集，实验结果表明，作者的模型在自动和人工评估方面都优于其他基线。

实验

方法比较

作者将作者提出的方法与求和基线和VQA基线进行了比较。

传统的文本摘要基线：

Lead：选择文章的第一句作为文本摘要。

TexkRank：一个基于图的抽取式概括器，它添加句子作为节点，并使用边来加权相似度。

PG：结合attention机制和指针网络的序列到序列框架。

Unified：一个结合了抽取式和摘要式概括的力量的模型。

GPG：提出通过“editing”指向token而不是硬拷贝来生成文本摘要。

多模态基线：

HOW2：提出了一个用视频信息生成文本摘要的模型。

Synergistic：一个图像-问题-答案协同网络，以评估答案在精确视觉对话中的作用。

PSAC：一个在VQA任务中加入位置self-attention和co-attention的模型。

MSMO：第一个多输出任务模型，在生成文本摘要时关注文本和图像，并使用覆盖度帮助选择图片。

MOF：基于MSMO的模型，它增加了对图像精度的考虑，作为另一个损失。

评价指标

生成的文本摘要的质量由标准全长Rouge F1进行评估。R-1、R-2和R-L分别指的是一元模型、二元模型和最长公共子序列。所选封面帧的质量是通过平均精度(MAP)和位置召回(Rn@k)进行评估。Rn@k度量正样本是否排在n个候选的前k个位置。

实验细节

作者在NVIDIA GTX 1080 Ti GPU上实现了在张量流中的实验。作者的模型的代码可以在线上上获得。对于所有模型，作者将单词嵌入维度和隐藏维度设置为128。编码步长设置为100，而最小解码步长为10，最大解码步长为30。对于视频预处理，作者从每120帧中提取一帧，得到10帧作为封面候选。所有候选的大小都调整为128x64。作者将与GT封面具有最大余弦相似度的帧作为正样本，其他的作为负样本。注意，正样本的余弦相似度平均值为0.9，这是一个很高的分数，展示了所构造候选的高质量。在条件self-attention机制中，堆叠层数设置为2。对于分层编码，每个片段包含5帧。实验中，批处理大小为16。作者的模型中的所有参数都是由高斯分布初始化的。在训练过程中，作者使用Adagrad优化器作为优化算法，并使用范围为[-2，2]的梯度裁剪。词汇表大小限制为50K。为了测试，作者使用beam大小为4的beam搜索，并且作者解码直到到达序列结束token。作者根据验证集的性能选择5个最佳检查点，并在测试集上报告平均结果。

实验结果

在这里插入图片描述

作者首先检查作者的DIMS是否优于表1和表2中列出的其他基线。首先，摘要式模型优于所有提取方法，证明作者提出的数据集适合于摘要式摘要。其次，视频增强模型优于传统的文本摘要模型，说明视频信息有助于生成摘要。最后，在Rouge-1、Rouge-2、Rouge-L方面，作者的模型分别比MOF的性能好17.8%、68.4%、29.6%；在MAP和R@1方面，作者的模型分别比MOF的性能好6.3%和15.2%。证明了作者模型的优势。作者所有的Rouge分数有一个95%的置信度区间，最多为±0.55。
在这里插入图片描述
除自动评估外，还对与Liu和Lapata（ACL 2019: Hierarchical transformers for multi-document summarization）相似的70个随机选择的案例，通过人工判断生成的文本摘要对系统性能进行了评估。作者的第一项评估研究量化了概括模型遵循问答(QA)范式从文章中保留关键信息的程度。根据黄金摘要创建了一组问题。然后作者考察参与者是否能够通过阅读系统摘要来回答这些问题。作者总共创造了183个问题，每个黄金摘要从两个到三个问题不等。正确的答案用1标记，否则用0标记。将所有问题得分的平均值设置为系统得分。

作者的第二个评估是通过要求参与者根据其信息（摘要是否传达了有关所讨论主题的重要内容？）、连贯性（摘要是否流利和符号语法规则的？）和简洁性（摘要是否避免重复？）来对其进行排序来估计全文摘要的整体质量。参与者被呈现出黄金摘要和从几个更好的自动化系统中生成的摘要，并被要求决定哪个是最好的和最差的。每个系统的评级被计算为它被选为最佳的次数减去它被选为最差的次数的百分比，范围从-1（最差）到1（最好）。

两项评价均由三名母语为英语的标注员进行。参与者对Unified，How2，MOF和作者的DIMS生成的摘要进行了评估，这些结果在自动评估方面都取得了很高的成绩。如表3所示，在两次评估中，参与者绝大多数都支持作者的模型。所有系统之间的两两比较中使用配对学生t检验在α=0.01的显著性具有统计学意义。

消融研究

作者进行消融试验，以评估表2中条件self-attention机制（-S）和整体attention机制（-G）的重要性。所有消融模型在所有指标方面的表现都比DIMS差，这说明了DIMS的卓越性。具体而言，全局attention模块对文本摘要生成的贡献最大，而条件self-attention模块对封面帧的选择更为重要。

多任务学习分析

作者的模型旨在同时生成文本摘要和选择封面帧，这可以看作是一个多任务。因此，在本节中，作者将研究这两个任务是否可以相互补充。作者将模型分成两个单任务架构，分别称为DIMS-textual summary和DIMS-cover frame，分别生成文本摘要和选择视频封面帧。结果如表2所示。结果表明，多任务DIMS比单任务DIMS-textual summary和DIMS-cover frame的效果更好，在ROUGE-L评分方面提高了20.8%的摘要表现，并且，在ROUGE-L评分方面，多任务DIMS比单任务DIMS-textual summary和DIMS-cover frame的效果更好。

双交互模块的可视化

在这里插入图片描述

为了研究多模态交互模块，作者在一个随机抽样的情况下，用公式8可视化全局attention矩阵E_i^t，如图4所示。在这种情况下，作者展示了视频中两个有代表性的图像对文章单词的关注度。颜色越深，attention权重越高。可以看出，对于左图而言，hand in hand一词的权重高于图片，而对于右图而言，Book Fair一词的权重最高。与此相对应的是，左框的主体是两位老人，右框是关于看书的。
在这里插入图片描述

作者在表4中展示了一个案例研究，它包含了输入文章和由不同模型生成的摘要。作者还展示了人类评价中的问答对和选择的封面。结果表明，该模型生成的摘要流畅、准确，选择的封面帧与GT帧相似。

小结

本文提出了基于视频的多模态输出多模态概括(VMSMO)的任务。该任务中的主要挑战是联合建模视频与文章语义的时间依赖关系。为此，作者提出了一种基于双交互的多模态概括器(DIMS)，它由双交互模块和多模态生成器组成。在双交互模块中，作者提出了一种获取视频内部局部语义信息的条件self-attention机制和一种从一个高层次处理新闻文本与视频之间语义关系的全局attention机制。在VMSMO的一个大规模实际数据上进行的实验表明，DIMS在自动度量和人工评估两方面都达到了最先进的性能。

Hollyprince

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
论文笔记 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

提出了一种新的任务–基于视频的多模态输出的多模态概括（VMSMO），它从新闻视频中选取封面帧，同时生成新闻文章的文本摘要。
复制链接

扫一扫