基于格式塔组织原理的信息图信息块检测
课程学习自己翻译记录-侵删
目录
摘要:
信息图是一种通过信息块显示信息片段的可视化图表。现有的信息块检测工作利用空间接近度将元素分组为几个信息块。然而,先前的研究忽略了信息图的色度和结构特征,导致在检测信息块时出现错误的遗漏。为了缓解这种错误,我们使用场景图来表示信息图,并基于格式塔组织原理(空间邻近性、色相似性和结构相似性原理),提出了一种基于图的信息块检测模型来对元素进行分组。我们还构建了一个用于信息块检测的新数据集。定量和定性实验表明,与基于空间邻近度的方法相比,我们的模型可以更有效地检测信息图中的信息块。
索引术语——信息图形、深度学习、基于图形的方法、信息块检测
1、简介
信息图是一种用于传递信息的可视化图表。最近,随着对自动化信息图形创作的新需求[1]、[2]、[3]、[4]、[5]、[6],已经提出了几种理解信息图形的方法,包括元素级检测[5]、[7]和图形级分析[8]。然而,上述研究将信息图元素视为独立的个体,缺乏对它们如何组合以提供信息片段的见解。在信息图[9]、[10]的创作和感知过程中,信息片段通常通过分组元素的序列来传递。我们将这些元素组定义为信息块([11]中的视觉组)。如图1a所示,信息块是文本和视觉元素的语义组合(被黑框包围),其中每种类型的元素都传递信息片段的不同方面(文本元素的内容、数字元素的顺序或图标元素的视觉含义)。
图1:信息块检测的一个例子。
图(a)是地面实况信息块检测结果,图(b)是基于空间邻近度的方法的信息块检测成果。实心矩形表示信息块,虚线矩形表示信息图形元素的边界框。
信息块检测是理解信息图元素如何组织成信息块的任务。它旨在将元素分组为几个信息块,并确定信息块的叙述顺序(这些信息块的组织顺序是传递信息的)。通过信息块检测,机器可以在信息块级别有效地解释信息片段和信息图形的常见模式,这最终支持自动化的信息图形创作。如图2所示,通过信息块检测功能,创作应用程序可以自动将用户创建的信息图中的元素分组为几个信息块,这些信息块稍后可以应用于设计者的模板。通过这种方式,用户可以消除布局或样式的限制,并毫不费力地将信息片段应用到精心设计的信息图模板中,从而加快信息图创作过程。
图2:自动化信息图形创作应用程序的示例。
应用程序可以将用户创建的信息图中的元素分组为语义独立的信息块,这些信息块稍后可以应用于设计者的信息图模板。通过这种方式,用户可以在这些美化选项(无论是布局还是样式)之间无缝切换,而他们在信息图中的主要想法保持不变。
Lu等人[11]是第一个基于空间接近度将信息图形元素分组为信息块的人。它们预先定义特定类型的元素作为信息块的种子。对于每个种子元素,他们找到最接近的(考虑欧几里得、水平和垂直距离)非种子元素,以形成信息块。然而,由于信息图元素的各种空间排列,远处的元素也可能属于同一信息块[9]。在这种情况下,基于空间接近度的方法可能会省略远离种子元素的元素,从而将元素分组为不正确的块。如图1a所示,两个遥远的元素(紫色虚线框中的文本和红色虚线框中数字01)应分组到同一信息块(黑框)中,因为它们表示第一条信息的主要内容和叙述顺序。然而,基于空间接近度[11]的方法仅将种子元素(编号01)和图标元素分组到同一信息块中(图中的黑框.1b)。它忽略了远处的文本元素,并错误地将它们分配给另一个信息块(蓝色框)。这个例子表明,空间接近度不足以检测信息图中的信息块。
图三: 一种从信息图图像中检测信息块的自动化方法
(a) 带注释元素的原始信息图图像;(b) 以格式塔特征向量作为节点表示的全连通信息图场景图;(c) 分组信息块;(d) 检测到的信息块及其叙述顺序。彩色圆圈表示信息图形元素,虚线表示元素之间的块关系。“同一块”表示配对节点之间的关系“在同一信息块中”。图(d)中的数字表示检测到的信息块在叙述序列中的顺序。
空间邻近是认知心理学中格式塔组织原则之一[12]。心理学家发现,在视觉感知过程中,人们根据格式塔组织原则将视觉元素分组为语义块[10],[13]。其他格式塔组织原则,如色相似性和结构相似性,也可以为信息块检测提供有效的指导,从而避免上述分组错误。此外,平面设计师通常遵循格式塔组织原则来组织信息块[9]。因此,在信息块检测中,有必要用另外两个原则(颜色相似性和结构相似性)来聚合空间邻近性:
- 色度相似性。格式塔组织原则之一,色相似性原则指出,人们可能会将具有相似色属性的元素分组到同一块中[14]。如图6-1a所示,,人们可以很容易地将黑盒包围的信息图元素分组为一个信息块,因为这些元素的颜色属性是相同的绿色。
- 结构相似性。平面设计研究表明,可视化中的重复或相似块可以提高可读性和对读者的吸引力[9],[15],[16]。因此,信息图设计者通常根据结构相似性来组织信息块。结构相似性要求不同信息块之间的元素类型和数量相似,例如,图1a中的所有五个信息块都有两个文本元素、一个数字元素和一个图标元素。
此外,先前的工作忽略了信息图中的元素关系,这有助于信息块检测。例如,如图3c所示,信息图可以表示为场景图[17],其中元素作为节点(彩色圆圈),元素之间的信息块关系作为边(绿色虚线)。在这个信息图中,信息块可以通过元素之间的“sameblock”关系来明确地展示。将信息图形表示为场景图,可以提取节点(信息图形元素)本身及其在图结构中链接的节点的特征,并有效地捕捉两个元素之间的信息块关系。因此,在信息块检测任务中,有必要利用基于场景图的模型来对信息图元素之间的关系进行编码。受上述直觉的启发,我们提出了一种基于图形的信息块检测(IBD Graph)模型,通过整合格式塔组织原理来提高信息块检测的性能。如图3所示,我们的IBD图模型可以分解为三个阶段:
1) 格式塔特征提取。在这个阶段,我们提出了特征提取器来获得信息图元素的空间和色彩特征。如图3b所示,构建了一个完全连接的场景图,将信息图元素视为节点,将可能的块关系视为边。
2) 信息块分组。在这个阶段,所有信息图元素都被分组到信息块中,如图3c所示。具体来说,我们利用基于图的网络来确定每对图节点(即每对元素)是否属于同一信息块。
3) 叙述序列识别。我们提出了一种启发式方法,为分组的信息块提供叙述顺序,并构建叙述序列,如图3d所示。
据作者所知,目前还没有为信息图中的信息块检测设计的可用数据集或评估指标。为了评估这种方法,我们构建了一个名为InfoBlock的信息块检测数据集,并提出了三个评估指标。通过定量和定性实验验证了所提出模型的有效性。
我们对信息图中信息块检测的贡献包括三个方面:
- 我们提出了一种基于图的信息块检测(IBD Graph)模型。模型集成格式塔组织三原则(空间代理-有限性、色相似性和结构相似性原理),这可以缓解先前仅基于空间邻近性的方法的错误元素遗漏。
- 我们将信息图表示为场景图,并利用基于图的网络来检测信息图元素之间的信息块关系。与之前忽略元素关系的工作相比,我们的模型可以有效地对信息块内的元素关系进行编码,从而提高检测信息块的性能。
- 为了评估我们的模型,我们构建了一个新的信息块检测数据集。我们在新提出的数据集上对我们的信息块检测模型进行了定量评估,并通过实例定性地证明了其有效性。
2、相关工作
在本节中,我们将介绍以前与这项研究,包括对可视化、基于场景图的视觉关系检测以及用于可视化理解的数据集。
2.1可视化的计算理解
可视化的计算理解旨在使机器理解可视化图表的信息和设计空间,包括数据、布局、样式等。根据要理解的语义单元,以前的研究可以分为以下几类:元素级、块级和图形级对可视化图表的理解。
对可视化图表的元素级理解要求模型检测边界框,对类型进行分类,并提取可视化图表中元素的数据或内容。Poco等人[18]基于启发式规则和机器学习方法识别可视化图表中元素的视觉编码和颜色映射。为了避免使用规则,一些研究人员应用深度神经网络(DNN)来检测信息图元素。Bylinskii等人[19]利用DNN从信息图中选择具有代表性的文本和视觉元素。Kembhavi等人[20]提出了一种多阶段的方法来识别科学教科书中信息图元素的类型和关系。Chen等人[5]采用ResNeXt[21]和特征金字塔网络(FPN)[22]对时间线信息图进行元素检测。Zhang等人提出了DataQuilt,从信息图图像中提取视觉元素,并进行图形可视化[23]。也有一些研究试图使用DNN来识别移动应用程序中的UI组件[24]。尽管上述研究侧重于解释单个元素,但它们忽略了一些元素可以分组为语义块来传递信息[12]。这些分组元素所表达的整体语义不能通过上述方法来解释。相比之下,本研究中使用的IBD Graph模型可以通过场景图构建语义元素块(即信息块),从而在信息块级别提供可视化图表的语义解释。
一些研究调查了块级可视化理解,这是一项将元素分组为语义块并从每个语义块中提取含义的任务。Lu等人[11]使用YOLO[25]来识别信息图中的元素,并利用基于空间邻近度的规则将信息图元素划分为多个视觉组。我们采用了元素分组的思想,并利用DNN来提高信息块检测的质量和泛化性能。在其他(非可视化)上下文中,Li等人[26]提出了一种深度通用感知分组模型,用于对草图中的笔划进行分组。与草图相比,将信息图中颜色丰富、布局多样的元素分组需要更多的感知特征。因此,我们在本研究中整合了几个格式塔组织原则,以充分探索不同感知维度(即空间、色彩和结构)的信息块检测任务。
除了元素级和块级的理解外,可视化图表的图形级理解也引起了许多研究人员的注意。图形级可视化理解旨在识别图表的类型、总结内容或发现图表的布局。Sakuragi等人[27]将幻灯片的布局定义为“流动/转移”、堆叠和列表,并使用规则来识别这三种布局。Savva等人[28]使用机器学习方法,如支持向量机(SVM)来识别可视化图表的类型(例如饼图、条形图、散点图等)。Martin等人提出了一组流水线[29],用于对手写流程图和有限自动机进行文本/非文本分离和结构分析。Kafle等人[30]提出了一种深度对偶网络来理解条形图的数据。Hullman等人[31]使用图形驱动的方法来识别一组“幻灯片式”信息图中的序列。一些研究人员还使用图形级别的特征来评估可视化质量。Fu等人[32]利用变分自动编码器(VAE)提取可视化的有效特征嵌入,用于美学和记忆评估。Haleem等人[33]提出了一种深度卷积神经网络,通过直接使用图图像来评估力定向图的可读性。尽管本文的目的不是图形级别的理解,但图形级别的特性可以为模型提供对元素关系的深入了解。受此启发,我们添加了一个模块来提取IBD图模型中图形级别的色度信息。
2.2基于场景图的视觉关系检测
信息块检测的一个基本步骤是检测信息图形元素之间的关系。我们使用了基于图的视觉关系检测模型来实现这一目标。在各种视觉关系检测方法[34]中,我们专门利用了图特征细化、高效的图生成和专门的基于图的目标函数来改进视觉关系检测。
图特征精化任务旨在通过分析空间特征和统计特征来精化图中的节点或边表示。深度关系网络[35]和迭代消息传递模型[36]通过对图中节点和边的特征细化来改进视觉对象的关系检测。基于图注意力机制的模型[37]可以有效地对节点之间的关系进行建模,并确保场景图构建的准确性。此外,基于神经基序的方法[38]可以通过建模视觉对象之间的关系规律来提高场景图构建的准确性。
为了高效地生成图,Li等人[39]提出的Factorizable Net基于子图聚类将主图分解为多个子图。图R-CNN[40]和关系建议网络[41]可以通过修剪图中节点之间的关系来提高图生成的速度。为了高效、准确地构建信息图的场景图,我们参考了graph R-CNN方法[40],首先修剪信息图场景图的关系,然后预测图节点之间的关系。
用于视觉关系检测的适当目标/损失函数可以加快和平滑训练过程。[42]中特别针对实体实例混淆和近端关系歧义提出了图形对比损失。提出了反事实评论家多代理训练(CMAT)[43]来处理图的一致性和目标中的局部敏感性。我们受到了这些启发之前的工作,并提出了一个新的目标函数完善信息图场景图的结构。
2.3可视化理解数据集
为了将数据驱动分析引入可视化理解任务,已经构建了一些大规模数据集。Zoya Bylinskii等人[44]收集了人们理解信息图时关注领域的数据集。Saleh等人[45]提出了一种用于信息图形的风格分类数据集。Madan等人提出了Visually29K[7]数据集,重点是识别信息图形中的图标。Lu等人提出的InfoVIF[11]数据集专注于信息图中元素的检测。然而,训练模型来检测信息块需要数据集来包含每个信息图元素的边界框、类型和信息块,以及这些信息块的叙述序列。据作者所知,到目前为止,还没有满足这些要求的数据集。因此,我们提出了InfoBlock数据集。
3、问题定义
本节介绍了信息图的背景、格式塔组织原则以及信息块检测问题的制定。
3.1信息图
信息图是一种显示信息、数据、知识等的可视化图表。为了逻辑和顺序地显示信息,信息图的作者通常使用一系列信息块来显示信息片段。信息块由几个信息图形元素组成,以独立地传递一条信息。信息图元素是一种在信息图中放置内容(如文本或图片)的形状。元素属性包括位置框(边界框)、填充内容和元素类型。
受Chen等人[5]的启发,四位合著者独立审查了我们InfoBlock数据集中的信息图。它们中的每一个都迭代地总结了一组互斥的类别,以描述信息块中的元素。如表1所示,收集审查结果分为六类。这些类别是根据一个元素传递的信息以及它如何与信息块中的其他元素交互来定义的。元素类型的相应示例如图4所示。
图4:信息图中的元素类别
不同的彩色虚线矩形表示六种相互排斥类型的信息图元素。
表1
3.2格式塔组织原则
格式塔组织原理是心理学中的一套原则,最早由格式塔心理学家提出,用于解释人类自然地将物体感知为有组织的模式和物体的观察[46]。这些原则包括接近性、相似性、连续性、闭合性和连通性。在本文中,我们主要利用格式塔组织原则的接近性和相似性。我们的模型通过提取信息图元素之间的空间接近度和颜色相似性来进行信息块分组。我们还构建了一个目标函数来测量信息块之间的结构相似性。这个目标函数可以指导模型将元素有效地分组到信息块中。
3.3问题公式化
信息块检测任务定义如下:给定一个信息图,将元素分组为几个信息块,并确定所有信息块的叙述顺序。信息块检测的任务可以分为两个步骤:信息块分组和叙述序列识别。
3.3.1信息块分组信息块分组
任务定义如下:给定信息图图像P和信息图中所有元素的集合V={v1,…,vn},信息块分组的任务需要预测信息块S={s1,…,sn},其中信息块sk是一组信息图元素:sk={vk1,…,vkt},vki∈V。正如视觉感知中的格式塔组织原则所说,人们通过考虑视觉元素之间的关系,将视觉元素分组为块[10]。类似地,信息块分组的任务可以被视为成对元素-块关系检测,即,给定信息图中所有元素的成对组合Ttuole = {c1,...,ct},c=(vi,vj),vi,vj∈V,i≠j,我们利用边界框和成对元素(vi,vj)的元素类别来确定它们是否属于同一信息块。
3.3.2叙述序列识别
叙事序列识别的任务是预测信息图中的叙事序列:S={s1:o1,...,sk:ok},根据信息图中所有元素的集合V和信息图中的信息块集合S,其中ok是信息块sk的叙述序列。
4建议的方法
在这项工作中,我们将信息块检测问题视为信息图中的成对元素-块关系检测,并提出了启发式规则来识别信息块的叙述序列。
为了检测成对元素的块关系,我们提出了基于图的信息块检测(IBD Graph)模型,这是一种基于图的方法,可以显式和隐式地编码不同元素之间的关系。在IBD Graph模型中,我们将信息图表示为场景图,将信息图元素视为节点,将元素之间的块关系视为边,并预测图的边类型。根据IBD Graph模型产生的块关系预测,我们可以获得信息块分组结果,并进一步使用启发式规则来确定信息块的叙述顺序。
4.1 IBD图模型
在本文中,使用了基于图的方法来检测信息图信息块。给定信息图中的元素集,所有元素的全连接场景图Gdense = (V,E);首先构造了E,其中V表示信息图中的所有元素,E表示元素之间的信息块关系。这张图将作为我们模型的输入。
IBD Graph模型(如图5所示)以Graph R-CNN[40]为骨架。它可以分解为格式塔特征提取器、关系建议网络(RePN)模块和注意图卷积网络(aGCN)模块。格式塔特征提取器包括一个局部特征提取器和一个全局特征自动编码器。这两个模块将信息图形元素作为输入,获得了空间和色度特征,这些特征将作为信息图形Gdense中的节点表示。我们使用RePN对全连通图进行修剪,得到了计算有效的稀疏图Gsparse。然后,我们使用aGCN来预测稀疏图Gsparse中连接节点之间的边的类别。正如结构相似性原理所建议的那样,在同一信息图中,不同信息块中元素的类型和数量通常是相同的[9]。受此启发,我们提出了一个结构相似性得分作为模型的目标函数,指导模型将信息图划分为更相似的信息块。
图5:IBD图形模型的体系结构。
IBD图模型可以分解为格式塔特征提取器、关系建议网络(RePN)模块和注意力图卷积网络(aGCN)模块。格式塔特征提取器包括空间和色彩特征提取器以及全局特征自动编码器
4.1.1格式塔特征提取器
在IBD Graph模型的格式塔特征提取模块中,提取了信息图形元素的颜色和空间特征。我们计算了每个元素对的色相似性和空间接近度。此外,还获得了信息图本身的多级彩色特征,这可以进一步提高信息块检测的性能。
色度相似性。根据格式塔组织原则,色相似性是人们将视觉元素分组为块的一个重要原则[14]。通常,两个元素的颜色属性越相似,这两个元素属于同一信息块的可能性就越大。我们使用ResNet50[47]提取每个元素的颜色特征Vchr=ResNet(vi),并计算两个元素vi和vj的颜色特征向量的相似性:
Φ(⋅) 和 Ψ(⋅)是成对元素的投影函数。两个具有相同架构(但不同参数)的多层感知器(MLP)用于Φ(⋅) 和 Ψ(⋅),〈⋅〉是矩阵乘法运算。
空间接近度。根据格式塔组织原则,两个视觉元素越接近,就越有可能属于同一信息块[14]。因此,我们提取了信息图元素的空间特征,并计算了成对元素的空间接近度。
给定单个元素的空间区域:r0i = [xl,yt,xr,yb],根据边界框的位置、宽度、高度和面积获得边界框的嵌入Vspt:
其中xl、yt、xr和yb分别表示左坐标、上坐标、右坐标和下坐标。然后,根据元素的空间嵌入,获得信息图中成对元素的空间接近度:
G和L是相同的MLP(具有不同的参数),并且〈⋅〉是矩阵乘法运算。与之前只使用两个元素的中心点之间的距离的方法[11]相比,IBD Graph模型利用了几个维度的空间特征,包括位置、距离、元素的面积、高度和宽度。有了这些不同的特征,我们的模型可以更有效地计算空间接近度。
显性染色特征。具体来说,在颜色单调的信息图(如黑白信息图)中,色度相似性不能用作视觉提示。因此,彩色特征向量vchrvchr的使用需要根据当前信息图的全局彩色特征进行调整。Graph R-CNN模型[40]使用特征金字塔网络[22](FPN)来提取原始信息图fI=FPN(P)的特征向量。我们在FPN之后添加了一个去卷积网络来形成一个自动编码器,并试图从特征向量fI=FPN(P)中恢复主色特征。自动编码器可以引导FPN提取信息图的适当的彩色特征向量。
4.1.2关系建议网络模块
RePN用于修剪信息图的场景图。这里的“修剪”一词指的是确定两个元素(场景图中的两个节点)属于同一信息块的可能性。具有低可能性的成对元素的边缘将被去除,这表明这些元素不太可能形成信息块。
RePN计算了成对元素的可能性得分,去除了几乎不可能形成块的边缘,最终得到了稀疏图Gsparse。成对元素的可能性得分可以计算为色相似性、空间相似性和显性色特征的加权和:
fI表示信息图形色度特征向量,fcolor表示元素vi和vj的色度相似性函数,fspt是元素vi和vj的空间接近度函数。fcolor和fspt都是格式塔特征提取器中的子模块。
4.1.3注意图卷积网络模块
注意图卷积网(aGCN)模块用于预测修剪后的稀疏图中的边的类别。对于从RePN获得的稀疏图Gsparse,我们在图中插入两个元素之间的信息块关系作为节点。此外,在图中的两个元素之间添加了跳跃连接边,这便于元素之间的信息传输。通过这种方式,构建了一个以关系和元素为节点的图,并且每个节点i都有一个表示zi ∈ Rd,如[48]中所提出的。对于元素节点,使用以下公式来更新其表示zoi:
对于关系节点,使用以下公式来更新其表示zrj:
W r和W skip是可学习的权重矩阵。Zo表示与元素节点i相邻的元素节点的表示矩阵,Zr是与关系节点j相邻的关系节点的表示阵。可学习参数α(αski和αr)可以通过以下公式计算:
表示矩阵u中的每个元素uij的值通过针对每个成对元素的表示的注意力操作[49]来获得:
4.1.4损失函数
在块关系检测任务中,我们使用基本事实关系y和预测结果p之间的二进制交叉熵作为训练损失函数。
原始信息图P中的地面实况像素yi和^P中的预测像素^yi的像素级均方误差被用作恢复信息图的去卷积网络的训练损失函数。
此外,还提出了一种基于信息图结构相似性原理的模型约束。结构相似性原则要求在同一信息图中,不同信息块中的元素类型和数量应该相似。余弦相似性用于测量信息块之间元素类型和数量的结构相似性。
首先,n个子图Gsub={g1,...,gn}从IBD Graph模型的预测中提取。我们选择特定类型的元素{vs}作为种子,根据块可能性scoresu将未划分的元素vu分组到与vs相同的块中,并获得每个子图的元素分布向量h。其次,我们获得了分布向量hi的成对余弦相似度;(hi,hj)子图gi和gj的损失函数,并将其作为结构相似性的损失函数添加到整体损失函数中。
这三个损失函数被组合为具有超参数α 、β 和 γ的IBD Graph模型的目标函数:
4.2叙述序列识别
提出了一种启发式规则来计算已识别信息块的叙述序列。我们基于规则的叙述序列识别程序包括代表点选择和块序列选择。
代表点选择。对于每个信息块,首先选择代表点以降低计算成本。我们使用信息块中元素的加权和来计算代表点的坐标:
第i个元素vi的边界框面积被视为元素坐标xi和yi,因为之前的工作[50]提到,面积较大的视觉元素通常比其他元素更具代表性。然后,点(xblock;yblock)用于表示信息块。
块序列选择。对检测到的信息块的所有可能的叙述序列进行了估计,并选择具有最高合理性的一个作为信息块序列。每个可能的区块序列的合理性可以计算如下:
其中,Weightn是第n个标准的权重,Scoren是第n条标准的分数,cnum是标准的数量。Lu等人[11]提出了最短路径、规则性和常见线性阅读顺序的标准。这三个标准与另外两个标准(顺序上的交叉点和常见的循环叙事顺序)一起作为我们的理性标准。普通循环叙述顺序的权重设置为0.8,其他顺序的权重则设置为1.0。
序列中的交点。作为一个叙述者,让他的信息图清晰易读是很自然的。如果按照叙事顺序有很多交叉点(如图6所示),读者会感到困惑,需要仔细确定正确的理解顺序。因此,我们通过计算叙事序列的交叉点来评估叙事序列的合理性。具有较少交集的信息块序列可以在该标准中获得更高的合理性得分:
B是信息块的数量,是连接第i个和第i+1个信息块的代表点的线。
通用循环叙述顺序。除了垂直和水平布局外,圆形布局也是一种常见的信息图形布局,它将信息块放置在中心点周围。在圆形布局的信息图中,叙述者通常按照顺时针或逆时针顺序传递信息。因此,我们设计了通用循环叙述顺序标准。如果给定的序列满足循环叙述顺序,则标准返回高分;否则,它将返回一个低分数:
角度θi在第i个信息块的代表点和中心点(xc,yc)之间:
5、数据集和实验
5.1 数据集
一些研究从视觉内容平台(如Flickr或visual)创建信息图数据集,用于各种目的[5]、[7]、[11]、[44]、[45]、[51]。据我们所知,目前还没有提出用于信息块检测的数据集。信息块检测任务需要一个数据集来包含每个信息图元素的边界框、类型和信息块以及这些信息块的叙述序列。到目前为止,最有可能满足这些要求的数据集是InfoVIF数据集[11]。然而,该数据集包含大量重复样本,并且缺乏对叙述序列的注释。
我们通过删除重复的信息图并在InfoVIF中重新注释它们,创建了一个名为InfoBlock的数据集。对于每个信息图元素,我们手动标记了它的边界框、类别(如表1所示)以及它属于哪个信息块。我们邀请了三位经验丰富的信息图设计师对信息块数据集中的每个信息图进行注释,获得了1417个信息图,这些信息图进一步分为1133个训练样本、142个验证样本和142个测试样本。除了表1中的定义外,还认为叙述序列中的整个信息块至少应包含信息的主要内容和显示顺序。InfoBlock数据集的三个注释器符合上述标准,并且可以独立地获得InfoBlock数据集中一致的注释结果(kappa分数为0.9480)。四位合著者和三位注释者审查了注释不一致的信息图,并投票获得最终注释。三个注释器花了半个月的时间才完成注释和标签验证。我们的数据集与之前的研究之间的比较如表2所示。
表2:不同数据集的比较
5.2 评估指标
信息块检测的任务需要在信息图中完全识别每个信息块。元素或信息块的省略可能导致严重的检测错误。然而,目前还没有可用的信息块检测评估指标。为了衡量信息块预测的完整性和准确性,我们提出了三个评估指标:测量单个信息块完整性的block_comp,评估信息图中叙述序列检测准确性的seq_comp,以及seq_acc,其测量检测到的信息块的完整性以及它们在信息图中的叙述序列。
信息块分组与无监督图像分割问题[52]有一个共同的特征,即两个任务都需要将单元(信息图中的元素或图像中的像素)划分为多个组。图像分割问题中常用的度量是分割覆盖(SC)[53],它测量机器分组和人类分组之间的重叠。我们稍微修改了分割覆盖,并将其定义为block_comp,以测量信息块的完整性。对于第i个信息块预测结果S'i中的每个信息块S'j,我们在基本事实Si中找到了最匹配的块Sj,并计算了S'j和Sj之间的Jaccard相似性。度量可以公式化为:
B是标记信息块的总数,J(⋅)表示Jaccard相似性。n表示测试信息图的数量,m是第i个信息图中的地面实况信息块的数量。
在对信息图的信息块进行分组后,我们获得了叙事序列。Lu等人[11]使用Jaccard相似度来评估视觉信息流的预测骨架与地面实况骨架之间的相似度。受此启发,我们采用Jaccard相似性来评估模型识别的叙事序列与基本事实之间的相似性。我们提出了seq comp来评估第i个信息图的信息块预测的准确性:
是基本真相叙事序列Si和预测叙事序列Si'的Jaccard相似性。
此外,只有对每个信息块和叙事序列进行完整的识别,信息图才能用于后续的美化和自动创建。因此,我们提出了评估度量seq_acc来测量检测到的信息块的完整性以及它们在信息图中的叙述序列:
注释I是指示函数。
5.4 实施细则
表3显示了我们的模型和信息块检测中的基线的实验结果。IBD Graph full在三个评估指标上都取得了最佳性能。在信息块的完整性评估(块comp)方面,我们的IBD Graph完整模型可以获得最高的分数,这表明我们的模型可以更完整地识别信息图的信息块。IBD Graph完整模型在信息块的检测精度(seq-comp)方面也优于基线,表明我们的模型可以更准确地识别信息块。信息块检测的高性能可以反映在这样一个事实上,即我们的模型在信息图的叙述序列识别方面可以远远超过基线模型。
表3:基于规则的基线[11]直接预测信息块,而不检测成对元素的关系。
此外,还在IBD Graph模型上进行了消融实验。消融实验表明,Graph R-CNN骨架(IBD Graph骨架)可以有效地识别信息块,表明图结构网络有利于提取信息图中元素之间的内部关系。
在模型中分别添加了空间特征、色度特征和结构特征后,性能有了一定的提高。这证明了在信息图中,元素的空间接近性、信息图的整体色度特征以及两个信息块之间的结构相似性可以帮助模型更好地识别信息块。
为了进一步比较IBD Graph模型中不同模块在信息块检测中的作用,对IBD Graph模式中的每个模块进行了详细的消融研究。表4显示了这些消融实验的结果。从表中可以看出:1)仅根据空间接近度,预测两个元素属于同一信息块(相同)比预测对应元素(非)更困难,导致基于空间的IBD Graph模型(IBD Graph+pos)的seq comp不令人满意。在添加了色信息和结构相似性后,IBD Graph模型的关系检测性能(相同F1、非F1、对F1)有所提高,表明了这两个特征的重要性。2) 与空间邻近模块相比,色度特征和结构相似性原理更显著地提高了信息块检测的准确性。在将彩色特征提取器和结构相似性损失函数分别添加到Graph R-CNN骨架中后,IBD Graph+recon和IBD Graph+struct的结果优于仅添加空间邻近模块IBD Graph+pos的模型。在添加到Graph R-CNN骨架的空间、彩色和结构特征的成对组合中,将色度特征和结构相似性相结合的模型(IBD Graph+recon+struct)对骨架模型的改进最大。
表4:对于同一块中的成对元素,标签相同,而对于对应元素,标签不相同。
此外,为了观察IBD图在不同信息图布局中的检测性能,我们根据叙述序列的形状将测试样本分为五类[54]。然后,我们计算正确预测的信息图的数量(如表5所示)。该表表明,我们的IBD图模型(无论是单个还是全部三个格式塔特征)在线性布局方面都比基于规则的基线表现得更好,线性布局是信息图形中最常用的布局[54]。此外,IBD Graph完整模型在多边形布局方面表现最好,这表明通过格式塔功能,我们的模型可以处理更复杂的信息图。
表5:我们将测试样本分为五类,并统计其信息块和叙述顺序与
基本事实相同的预测信息图的数量。
5.5 个案分析研究
我们将测试集中一些样本的信息块分组结果可视化,如图7所示。从图中的前两个测试样本,即可视化结果的前两列来看,IBD图模型的信息块检测结果(IBD图预测)比基于规则的基线(基于规则的预测)要好得多。
如图第一列的预测结果所示。7,我们的模型捕捉了信息图元素的色度特征,并将信息图元素准确地划分为五个信息块(第三行)。基于规则的模型省略了与种子元素相距较远的文本元素(即信息图中的数字元素),从而将左侧的这五个文本元素错误地分配到五个单独的信息块中,导致严重的分组错误(第四行)。
另一种情况如图7的第二列所示。在这种情况下,IBD Graph模型可以有效地捕捉信息块内信息图形元素的空间接近度,以及不同信息块之间的结构相似性。它将信息图元素正确地划分为四个信息块(第三行)。相比之下,基于规则的模型未能将元素适当地分组为信息块(第四行)。
我们的模型还可以在布局不太有序的信息图中准确地检测信息块。如图7的第三列所示,信息图中三个信息块的比例不一致,不同块中元素的布局也不同。在这种情况下,基于规则的基线无法正确区分第二和第三信息块(第四行)中的元素,我们的IBD图模型可以准确地对它们进行分组(第三行)。
图7:信息块分组的案例研究。第一行中的信息图是测试样本。基于规则的基线和IBD图模型及其方差的预测结果在样本下的以下行中描述。
我们使用相同颜色的框来包围预测属于同一信息块的元素。
6、讨论
在本节中,我们将介绍信息块检测的应用场景,并指出IBD Graph模型的局限性。希望这一部分能够说明信息图理解领域未来的研究方向,吸引更多优秀的研究人员。
6.1 新应用程序的机会
由于布局不合理和风格不一致,非专业用户设计的信息图往往不那么吸引人和可读。布局或样式美化等自动化创作过程可以帮助用户毫不费力地将信息转换为所需的信息图形。然而,美化这些布局和风格需要相当多的专业知识和时间。相比之下,我们的模型将用户创建的信息图中的元素划分为语义独立的信息块,并在这些块之间构建一个叙述序列,稍后可以应用于设计师的信息图模板。通过这种方式,我们可以消除用户设计的信息图形的布局或风格限制,并为用户提供各种美化选项。用户可以在这些美化选项(无论是布局还是样式)之间无缝切换,信息块中的主要思想保持不变。
此外,我们的模型可以通过检测精心设计的信息图中的信息块(并用占位符元素替换它们)来自动提取信息图模板。在美化用户定义的信息图时,检测到的信息块和叙述序列可以作为匹配的参考,以便用户的信息块可以准确地应用于信息图模板。
6.2 局限
IBD Graph使机器可以在信息块级别访问信息图形,这可能会大大扩展应用范围。然而,它也受到一些限制和限制。
第一个限制与视觉提示有关。在设计复杂的信息图时,设计师经常使用一些装饰元素作为视觉线索来引导观众的注意力,减轻他们的认知负担,加快他们的理解速度[12]。有了这些视觉提示,观众可以在信息图中的不同信息之间平稳切换。IBD Graph模型在检测信息块时缺乏对装饰元素的关注。因此,它无法捕捉到这些视觉线索所传递的隐含信息。在图8的第一张图所示的信息图中,IBD Graph模型忽略了四个装饰性带状元素,这四个元素指示了注释图标和消息文本元素的信息块关系。如果没有这些视觉线索,IBD图很难将元素正确地分组到信息块中(如图8的第二幅图像所示)。
第二个限制是全局洞察力。当信息图中的信息块数量很大(通常大于六个,如图8的第三幅图所示)时,我们的IBD图模型容易出现检测错误(如图8中的第四幅图所所示)。这是因为我们的模型对信息图中信息块的数量和布局缺乏全局洞察力,这使得模型无法将复杂的信息图分解为多个部分,然后检测每个部分的块。
第三个限制是深度学习模型的“黑盒”性质导致的可解释性较弱。近年来,深度学习模型已经成为自然语言处理和计算机视觉的主流,因为它们可以实现高性能。然而,深度学习模型的推理过程仍然不太可解释,并且对人类的理解是隐藏的,这被称为“黑匣子”性质[55]。由于我们的IBD图模型是基于深度学习的,我们也遇到了弱可解释性问题。
图8:信息块分组不令人满意的情况。
第一和第三图像是测试样本的两种情况。第二个和第四个图像是我们的IBD图模型的相应分组结果。我们使用相同颜色的框来包围预测属于同一信息块的元素。
7、结论
信息块检测是将信息图形元素分组为几个信息块并确定这些块的叙述顺序的任务。我们将信息图表示为场景图,并提出了IBD图模型,以利用格式塔组织原理(空间邻近性、颜色相似性和结构相似性)有效地检测信息块。我们提出了一个数据集和三个评估指标,用于信息块分组和叙述序列识别。定量和定性实验表明,与基于空间邻近度的方法相比,我们的模型可以更有效地检测信息图中的信息块。