该方法包含三个相互独立的模块,来完成三个各不相同的子任务。
目标识别(Object Detection, OD):结合深度学习模型与图像处理技术,提取图表中的实体(形状、数轴、图例等)及其视觉属性(颜色、尺寸、位置等)。图中文字也通过光学字符识别(Optical Character Recognition, OCR)技术进行提取。
自然语言处理(Natural Language Processing, NLP):利用NLP技术从描述文本中提取出被描述的实体及其属性。
匹配与渲染:从图表实体中、查询并匹配被语言描述的实体,将其在图中高亮出来,并将描述文本显示为相应的注释。
1) 视觉匹配
要理解如何进行匹配,我们先要了解人们是如何进行视觉描述的。作者们指出了两种常见的视觉描述方式:即基于名称和基于视觉特征。
基于名称:如果观众知道实体的名称,讲者一般会用该名称来直接指定。譬如图例展示了“公司A”所对应的视觉特征(颜色、形状等),则讲者可直陈“公司A的数据”、而无需担心观众会无法辨认。
基于视觉特征:如果并未展示实体名称、观众亦缺乏相关背景,则讲者需要通过视觉特征来进行指定。譬如在一幅散点图中,描述“左上角那个较大的红色点”,通过空间位置、尺寸、颜色等属性的交叉指定,让用户能够自行找到被描述的实体。
2) 效果渲染
视觉匹配将每个句子和它所描述的图中实体联系起来。每个实体通过图像遮罩(Image Masking)技术进行高亮,遮罩的轮廓即OD中提取的精细轮廓。为避免语义和视觉的杂乱,作者们将不同句子按顺序划分到动画的不同幕中进行展现。每一幕的描述都作为注释出现在高亮的实体旁边。讲者可在各幕之间切换,从而有条理地进行介绍(如图4)。 自动生成可视化注释动画的工作被ACM CHI 2020收录为长文。该成果以北京大学可视化与可视分析实验室博士生赖楚凡为第一作者,袁晓如为通讯作者。该工作得到国家重点研发计划项目和国家自然科学基金的支持。国际学术会议CHI 全称ACM Conference on Human Factors in Computing Systems,是人机交互领域的最高学术会议(CCF-A类会议)。2020年ACM CHI共收到会议论文投稿3126篇,收录760篇,录取率为24.3%。会议原定2020年4月25-30日在美国夏威夷举办。由于疫情影响,会议取消现场活动,论文将按照原定计划4月25日ACM在线图书馆上线发布。[1] Chufan Lai, Zhixian Lin, Can Liu, Yun Han, Ruike Jiang, and Xiaoru Yuan. “Automatic Annotation Synchronizing with Textual Description for Visualization”. In Proceedings of ACM Conference on Human Factors in Computing Systems (CHI 2020), Honolulu, Hawaii, USA. April 25-30, 2020.
6 结语本文介绍了近期北京大学袁晓如团队提出的一种新颖的基于图像目标检测与自然语言处理的技术,能够自动完成可视化图表的高亮与注释工作。用户只需上传图表及其文本描述,即可在顷刻间获得准确而生动的、带高亮与注释的动画。该技术采用深度神经网络模型,并结合图像处理方法,从图表中准确识别出各类实体及其视觉属性,同时利用自然语言处理方法,提取文本中描述的实体及其视觉特征,自动完成视觉与语义信息的匹配,在进一步自动生成与文字描述均匹配的动画。其他相关可视化快速构建工作可以访问北京大学可视化交互敏捷构建系列网页: http://vis.pku.edu.cn/agilevis