ACL2021论文笔记——Constructing Multi-Modal Dialog Dataset by Replacing Text with Semantically Relev Image

Mike峰

已于 2022-02-15 18:52:45 修改

阅读量733

点赞数 1

分类专栏： NLP 文章标签：自然语言处理 acl nlp 深度学习

于 2021-11-27 17:13:08 首次发布

本文链接：https://blog.csdn.net/m0_58550000/article/details/121388279

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文链接：
Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images (aclanthology.org)https://aclanthology.org/2021.acl-short.113.pdf代码数据集链接：
shh1574 (Suwon Shin) · GitHubshh1574 has 2 repositories available. Follow their code on GitHub.https://github.com/shh1574/

Author & Institute

Lead Author: Nyoungwoo Lee @KAIST, Daejeon, South Korea

Second Author: Suwon Shin @KAIST, Daejeon, South Korea

Third Author: Jaegul Choo @KAIST, Daejeon, South Korea

Fourth Author: Ho-Jin Choi, and Sung-Hyon Myaeng @KAIST, Daejeon, South Korea

Ho-Jin Choi

Sentific institution: IR & NLP Lab of Korea Advanced Institute of Science and Technology
link: IR & NLP Lab (kaist.ac.kr)http://ir.kaist.ac.kr/about/ papers from 2019 till now:

0 标题理解

标题的汉语意思是 “通过语义相关的图像替换文字来建立多模态数据集”

(1) Multi-model:

首先是多模态：
所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。
——摘自百度百科多模态交互_百度百科 (baidu.com)

关于多模态机器学习：什么是多模态机器学习？ - 程序员大本营 (pianshen.com)https://www.pianshen.com/article/3438142613/有关多模态数据集的一个很不错的整理：
多模态分析数据集（Multimodal Dataset）整理 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/189876288

(2) Replace text with Sementically Relevant Images

也就是使用语义相关的图像替换对话中的文本，通过使用文本到图像替换技术创建图像混合对话

1 Abstract

1.1 提出需求以及本任务的意义

在多模态的对话系统中，最重要的是将图像作为多轮对话的一部分（如果是文字图像混合多模态的话）

但是，训练这样的多模态对话系统，就需要 大规模的含图片的对话数据集。

1.2 "三步"构建训练集

1.准备和预处理文本对话数据集
2.通过使用文本到图像替换技术创建图像混合对话
3.使用一个基于上下文相似性的过滤步骤，以确保数据集的上下文一致性

1.3 评估：数据集有效性

作者为对话句子预测任务设计一个简单的检索模型。
此类任务的自动指标和人工评估结果表明，作者的数据集可以有效地用作需要以上下文感知方式理解图像和文本的多模态对话系统的训练数据。

2 Introduction

2.1 需求

对于聊天机器人来讲，如果想要像我们平时社交软件聊天的那种程度，就需要一并考虑聊天记录中的图片以及文字，将这二者都纳入对话生成的范围之中。

训练这样的多模态对话系统就需要大量的 text 与 images 具有上下文相关性的数据集

2.2 给出现实中原有成果的缺点

然而现实是这样的：
受限制除了一些文章【image captioning (Lin et al., 2014; Young et al., 2014) or visual question answering (Mostafazadeh et al., 2016; Das et al., 2017)】的错误：许多依赖图像字幕或视觉问答技术的现有方法必须使用与对话上下文无关的数据集进行训练。换句话说，由于缺乏足够的多模态对话数据集，图像的解释独立于对话上下文。（点明意义）

这篇文章同时指出了另外一些文章、数据集的错误【(Mostafazadeh et al., 2017; Shuster et al., 2020a)】：作者认为这些文章甚至都没有考虑对话的文字在图片之前的情况，因为这个数据集里面出现的几乎都是先出现一个图片，再出现文字对话的情况。

作者又指出了另外的一种文章也就是使用 image-grounded conversations【(Lu et al., 2019; Chen et al., 2020; Tan and Bansal, 2019; Su et al., 2020; Li et al., 2019b)】的并不能学习到图像前后的两段文本之间的依赖关系(dependency)。

注：所谓的基于图像的对话：

一种基于图像描述的对话生成方法和装置与流程

2.3 给出本文中要完成的内容

本文提出了一个 45k 的多模态对话数据集
数据集的形式如图所示：

每个多模态对话实例由一个文本响应(textual response)和一个包含多个文本话语和一个图像的对话上下文组成。

2.4 制作数据集的方法

为了创建这个数据集，我们从现有的纯文本对话数据集作为源对话开始，然后用语义相关的图像替换源对话中的部分句子。

具体的步骤：
(1) 源对话预处理，例如删除停用词，以提高相似度计算的质量

(2)【中心步骤】通过用基于相似性的文本到图像替换句子来创建包含图像的对话替换技术

(3) 通过采用基于上下文相似性的过滤方法(contextual-similarity-based filtering method)来修剪低质量的对话
Question: contextual-similarity-based filtering method是干什么的，是将相似的精简以减少数据的稀疏性还是通过相似的来提高上下文语义的连贯性呢？

2.5 验证的方法

(Ⅰ)
为了验证本文的数据集创建过程并检查我们的多模态对话数据集的质量，
作者设计了在考虑对话上下文和图像的同时预测当前和下一个对话句子的任务。

(Ⅱ)
作者还开发了简单的检索模型来学习任务的图像和文本之间的关系

2.6 验证结果

结果表明，本文的数据集可以作为涉及图像和对话上下文的多模态对话任务的实用训练资源。

3 多模态对话的建立

构建本文的数据集，作者使用了三个dialogue数据集以及两个image数据集

整体的建立过程，如下图所示：

3.1 Source Dialogue Pre-processing

处理源对话中，预处理筛选得到可以换成图片的句子：
（1）删除问句，因为很难用一个图片去表示一个问题
这样我们就删除了大约25.08%的句子
（2）除去stop words，因为一般它们不具有实际的意义

这样预处理删除之后，所有剩余的句子可以成为之后被替换的target sentences

3.2 Text-to-Image Replacement

此过程，将 3.1 中选择出的target句子替换成合理的相应的图片，我们从数据集选出的图片，是基于 Text-to-image Similarity 而实现的。

如何计算这个Similarity？
我们使用2019年Li的Visual Sementic Reasoning Network(简称VSRN)的模型，该模型通过图文相似度将图片和文章进行match操作。

我们使用确保上下文一致性的阈值(threshold)进行replacement操作
这个threshold将在下一步 3.3 提及

特殊情况：如果有多个taget sentences在一个对话中，我们分别将每个换成image，然后做成多个image-mixed dialogue，因为为了保证每个对话可理解性较高，每个对话我们规定只换一个句子变成image。

3.3 Contextual-Similarity-based Filtering

最后一步的“基于上下文相似性的过滤操作”是为了加强生成的text-image混合的dialogue的上下文连贯性。

我们过滤掉图片文字相似性没有达到阈值的对话组合，这个阈值的判断是使用人工注释者完成的：

对于图像匹配质量的人类注释者，每个组合共选择 300 个测试对话。由于我们使用了三个源对话数据集和两个图像数据集，我们为每个对话数据集和每个图像数据集创建了六种组合。自动创建的图像混合对话实例根据相似度值分为十个片段，从每个片段中随机选择 30 个。我们总共聘请了 18 位注释者来评估从这六种组合中采样的 1,800 个实例。评估系统在附录 C 中描述。

对human annotators提如下三个问题：

Q1、Q2主要是问图片是否反映了之前的句子的核心语义。(3分满，2分合格)
Q3 主要是问是否具有良好的上下文连贯性。(5分满，3分合格)

然后通过分析每个问题的分数以及图片到文本的相似性，发现二者近似呈线性相关

由于 Q2 和 Q3 与语义相似度有合理的相关性，替换图像倾向于反映目标和上下文句子的含义。

评估结果表明，自动创建的具有高相似度的图像-文本对可以用作多模态对话

也就是说，肯定了相似性 Similarity 的意义，据此，我们根据确定的相似性过滤生成的多模态对话，然后将过滤后的对话设置为我们的最终数据集。

最终形成的数据集的数据如下表所示：

3.4 Data Quality

我们评估我们数据集的质量以验证所提出的数据集创建方法。为此，我们从最终数据集中随机抽取了 300 个图像混合对话。评估以与之前相同的方式进行，但我们添加了一个新问题 Q4，它要求选择对话中使用的图像的意图：
选项：(1) 回答问题 (2) 表达情感的反应 (3) 提出一个新主题 (4) 对先前的上下文给出额外的解释。

对于上述四种意图类型，注释者的响应分布为 27.3%、20.0%、32.7% 和 14.7%，表明我们的数据集包含平衡的意图类型。

4 Experiments（验证）

4.1 Experimental setup

我们考虑给定图像和对话的两个对话句子预测任务：给定图像的当前对话预测和下一个对话预测。我们使用由三个模块组成的
简单检索模型 (Shuster et al., 2020a,b)：
Resnext-101 (Xie et al., 2017) 用于图像编码器，
BERT (Devlin et al., 2019) 用于文本编码器，
fusion model(融合模块)。
作为训练模型的输入，我们使用图像和紧接在图像之前的最多三个对话句子作为对话上下文。

4.2 Automatic evaluation

通过数据集训练得到我们的检索模型：
我们根据最近的工作（Shuster 等人，2020a）进行定量比较，以找到我们的检索模型（附录 D）的最佳设置。

为了评估检索精度，我们使用了 100 个候选中的 1 个和 5 个的 recall，其中包括从测试集中随机选择的 99 个候选和 1 个真实句子，称为 R@1/100 和 R@5/100，分别。我们也使用平均倒数排名。我们将我们的模型与简单的信息检索基线进行比较。基线模型的候选者根据其排名目标句子和图像标题之间的加权单词重叠，然后是对话上下文。

如表 3 所示，检索模型的 R@1 性能在当前和下一句预测任务上获得了 50.35 和 14.38，在这两个任务上均优于基线。该结果表明，我们的数据集可以作为训练数据正确工作，以在必须同时考虑图像和对话上下文的对话句子预测任务中学习图像和对话上下文之间的关系。

4.3 Ablation Study(切除/消融/分开研究)

我们通过依次删除模态（图像和对话上下文）来进行切除研究，以检查我们的数据集中是否存在不需要的相关性。

存在不需要的相关性的表现：图片和文字不需要同时使用就可以推出上下文

如表 4 和表 5 所示，结果首先表明，在考虑上下文和图像的模型中，ground-truth 答案的召回度量高于仅考虑图像和文字的模型。这表明每个任务中的模型都正确地考虑了图像和对话上下文来预测句子。

总体趋势还表明，当我们逐一删除每个模态时，模型性能会下降。
这样的结果表明，我们的数据创建过程没有产生"干扰形成图像和对话上下文之间关系"的相关性。

4.4 Human Evaluation

我们创建了一个新的测试集，以确认即使在以不同方式（手动构造多模态对话）构建的测试对话中，该模型也可以很好地预测句子。

为此，两名研究人员通过将图像添加到我们的数据集生成过程中未用于人类评估的源对话中，手动创建了 100 个多模态对话。

然后使用我们训练的预测模型对该人工构造的数据集进行预测。

我们对每个预测任务的结果使用三个注释者进行评估，使用一个问题（5 分制）询问模型预测的句子与图像和对话上下文的相关程度。每个任务的三个注释者的平均分数显示为当前turn预测为 3.36，下一个turn预测为 3.06。结果表明，即使在人类组织的对话中，模型也可以以上下文感知的方式预测句子。

5 Conclusions

我们提出了由 45k 多轮对话组成的多模态对话数据集，其中包含语义相干图像以及数据集创建方法。我们的多模态对话的人工评估结果表明，即使句子被图像替换，上下文的一致性也能得到很好的保持，这表明我们的数据集和数据创建方法的有效性。然后，我们使用两个多模态对话预测任务评估我们的数据集，证明其在训练对话系统以学习图像和对话上下文之间的关系时的有效性。我们提出的数据创建方法可用于高效构建涵盖不同多模态情况的大规模多模态对话数据集。

Edited 1:58 a.m 2021/11/28