生成注释_自动可视化注释动画生成

最新推荐文章于 2024-03-29 16:37:09 发布

黃昱儒

最新推荐文章于 2024-03-29 16:37:09 发布

阅读量217

点赞数

文章标签：生成注释

本文链接：https://blog.csdn.net/weixin_35238815/article/details/112659285

版权

在数据分析过程中，人们会获得各种发现与洞见。当他们分享这些洞见时，可视化图表常常扮演着重要的角色。然而，如何高效地引导观众理解数据，却不是一件简单的事情。在演讲者描述图表的同时，观众需要在图和描述之间频繁切换，并进行视觉和语义信息的匹配。这一过程乏味且耗时，甚至会阻碍观众跟上讲演的思路。一种有效的辅助读图手段是高亮与注释。针对每一句描述，我们可以高亮被描述的图中实体，并将描述文本附着于实体旁边，从而绑定视觉与语义信息，并快速吸引观众注意力。然而，高亮注释的工作耗时费力，极大地增加了演讲者的工作负担。针对这一问题，北京大学可视化与可视分析实验室袁晓如团队近期提出一种自动生成图表高亮与注释效果的方法。用户只需上传图表及相应的描述，即可在顷刻间获得准确而生动的、带高亮与注释效果的动画，以辅助数据信息的展现。这项成果发表于ACM CHI 2020。 1 方法概览

该方法包含三个相互独立的模块，来完成三个各不相同的子任务。

目标识别(Object Detection, OD)：结合深度学习模型与图像处理技术，提取图表中的实体(形状、数轴、图例等)及其视觉属性(颜色、尺寸、位置等)。图中文字也通过光学字符识别(Optical Character Recognition, OCR)技术进行提取。
自然语言处理(Natural Language Processing, NLP)：利用NLP技术从描述文本中提取出被描述的实体及其属性。
匹配与渲染：从图表实体中、查询并匹配被语言描述的实体，将其在图中高亮出来，并将描述文本显示为相应的注释。

不同的描述语句被拆分为动画的不同幕(scene)，讲演者可按文本顺序、一幕幕地播放动画并进行介绍。 2 目标识别目标识别是图像处理领域中一类新兴的深度学习技术，能够识别图像中存在哪些类别的物体，并指出这些物体的确切位置与轮廓(如图1)。而Mask-RCNN模型是该领域中最前沿、应用最广泛的技术，可识别任何带有固定视觉特征的实体。

图 1. 利用Mask-RCNN模型从图像中识别“人”与“自行车”

在本文中，作者们利用Mask-RCNN模型，通过三类图表(散点图、直方图、饼图)、数百幅图像的标记(如图2(b))和训练，建立起能够在毫秒之间准确识别各类图表元素(如图2(c))的深度神经网络。然而，Mask-RCNN识别的轮廓距离真实轮廓有难以忽视的偏差(参考图(1))，无法直接用于实体的高亮。为此，作者们通过在粗轮廓(raw contour)中识别实体颜色、并在包围盒中勾勒相应的色块，来最终获取实体的精细轮廓(fine contour, 如图2(d))。得到轮廓之后，实体的其他属性便可通过图像处理的方法来相应获得。

图 2. 目标识别模块的工作流程

除视觉实体外，图表中常常包含了辅助读图的文本信息(如图例文字、轴上数值等)，需要观众自行阅读。它们并不出现在演讲者的描述中，却对描述的理解至关重要。譬如，颜色图例(color legend)显示“红色”代表“苹果”，那么每当描述中提到了“苹果”，观众都应该去搜寻红色的视觉实体。为此，我们需要利用OCR技术来提取图中的文字，并理解它们在图表中的角色和意义。 3 自然语言处理

图 3. 自然语言处理模块的工作流程

NLP模块的任务是从文本中提取被描述实体的特征，并相应产生对图中实体的查询。这一过程主要包含三个步骤。首先，作者们利用NLP技术对描述文本进行了分词断句(Sentence Segmentation)、词性分析(Part-Of-Speech Tagging)、依存性分析(Dependency Parsing)等处理，提取了单词的词性、依存性等基本信息(如图3(a))。然而，这一步还无法揭示描述中的语义信息。其次，作者们根据对可视化的常见描述，定义了两类知识库(Knowledge Base)：即关键词典和句型库。前者包含了描述各类视觉属性的常见词汇，如“大”，“红”，“左”等等。OD模块提取的图中文字(数值、名称等)也被视作关键词。后者则囊括了常见的描述句型、及其中词汇的依存关系(如图3(b))。最后，该模块通过关键词匹配识别被描述的视觉属性，并根据句型、了解这些属性刻画了“哪些实体”，由此生成相应的实体查询语句(如图3(c))。 4 匹配与渲染OD模块告诉我们“图中有什么”，NLP模块则明确 “演讲者描述了什么”。在此基础上，本模块的任务是在图表中搜寻、匹配被描述的实体，并相应地渲染高亮和注释效果。

1) 视觉匹配

要理解如何进行匹配，我们先要了解人们是如何进行视觉描述的。作者们指出了两种常见的视觉描述方式：即基于名称和基于视觉特征。

基于名称：如果观众知道实体的名称，讲者一般会用该名称来直接指定。譬如图例展示了“公司A”所对应的视觉特征(颜色、形状等)，则讲者可直陈“公司A的数据”、而无需担心观众会无法辨认。
基于视觉特征：如果并未展示实体名称、观众亦缺乏相关背景，则讲者需要通过视觉特征来进行指定。譬如在一幅散点图中，描述“左上角那个较大的红色点”，通过空间位置、尺寸、颜色等属性的交叉指定，让用户能够自行找到被描述的实体。

事实上，前者之所以有效，正在于观众了解名称与特征之间的对应关系。为此，我们可以根据图例，将名称转换为相应特征，从而集中处理视觉特征的匹配任务。前述模块已经提取出实体所具有的、以及被描述的视觉特征，包括形状、颜色、尺寸、位置等。该模块则从各个特征出发对实体进行交叉查询，以最终明确“讲者描述了图中的什么”。

2) 效果渲染

视觉匹配将每个句子和它所描述的图中实体联系起来。每个实体通过图像遮罩(Image Masking)技术进行高亮，遮罩的轮廓即OD中提取的精细轮廓。为避免语义和视觉的杂乱，作者们将不同句子按顺序划分到动画的不同幕中进行展现。每一幕的描述都作为注释出现在高亮的实体旁边。讲者可在各幕之间切换，从而有条理地进行介绍(如图4)。

图 4. 通过图和描述生成带注释与高亮的动画

5 相关论文

自动生成可视化注释动画的工作被ACM CHI 2020收录为长文。该成果以北京大学可视化与可视分析实验室博士生赖楚凡为第一作者，袁晓如为通讯作者。该工作得到国家重点研发计划项目和国家自然科学基金的支持。国际学术会议CHI 全称ACM Conference on Human Factors in Computing Systems，是人机交互领域的最高学术会议(CCF-A类会议)。2020年ACM CHI共收到会议论文投稿3126篇，收录760篇，录取率为24.3%。会议原定2020年4月25-30日在美国夏威夷举办。由于疫情影响，会议取消现场活动，论文将按照原定计划4月25日ACM在线图书馆上线发布。

[1] Chufan Lai, Zhixian Lin, Can Liu, Yun Han, Ruike Jiang, and Xiaoru Yuan. “Automatic Annotation Synchronizing with Textual Description for Visualization”. In Proceedings of ACM Conference on Human Factors in Computing Systems (CHI 2020), Honolulu, Hawaii, USA. April 25-30, 2020.

6 结语本文介绍了近期北京大学袁晓如团队提出的一种新颖的基于图像目标检测与自然语言处理的技术，能够自动完成可视化图表的高亮与注释工作。用户只需上传图表及其文本描述，即可在顷刻间获得准确而生动的、带高亮与注释的动画。该技术采用深度神经网络模型，并结合图像处理方法，从图表中准确识别出各类实体及其视觉属性，同时利用自然语言处理方法，提取文本中描述的实体及其视觉特征，自动完成视觉与语义信息的匹配，在进一步自动生成与文字描述均匹配的动画。其他相关可视化快速构建工作可以访问北京大学可视化交互敏捷构建系列网页： http://vis.pku.edu.cn/agilevis