Chart Mining:A Survey of Methods for Automated Chart Analysis论文阅读

一、论文翻译

Abstract

        图表以一种以可视化形式呈现数据的有效交流工具。有许多研究致力于图表挖掘,即对图表进行自动检测、提取、分析,以再现出用于创建图表的原始数据,并以表格形式展现数据。图表挖掘为下游任务得以使用图表数据打下基础。本篇论文全面调查了图表挖掘过程的各个步骤所用到的方法,例如:(i)从文档中自动提取图表;(ii)多板块图表处理;(iii)自动图像分类器以大规模收集图表图像;(iv)针对常见图表类型和特定图表类型,从图表图像中自动提取数据;(v)图表挖掘的应用;(vi)构建训练与评估数据集的方法。最后,我们总结了文献中的主流发现,并为数据挖掘领域未来研究提供指引。

1  Introduction

        数据可视化能高效交流数据。许多情况下,通过文本或表格难以传达的数据可以通过数据可视化变得容易表达。大量文献致力于分析数据可视化以便更高效使用数据,本文致力于自动提取、分类、理解特定类型数据可视化的技术,即图表。

        图表是一种抽象几何图,它规则简单但是表达能力强,能在多个领域广泛应用。在学术论文中,图表能被用作强力的总结性工具,能让研究者快速理解实验结果。图表通常是论文主体中所描述的事实的补充说明,但它们的数据通常无法以其他格式被利用。图表在文档中无处不在,对于自动处理图表的研究致力于寻找一种能有效利用图表中所蕴含的丰富量化信息的方法。

        本文专注于过去15年已发表的自动图表分析方法和它们的应用。

2  Extracting chart from documents

        在高度结构化文档中,图表一般包含在插入的图片中。我们定义 figure 作为给定可视化图表及其标签、描述性信息的容器。接下来我们研究从高度结构化的文档中提取包含图表的 figure 的方法。(文档中插入的 figure 除了包含chart,还会包含标题、描述图表意义的文本等信息,所以figure与chart并不等同

        对于数字生成文档(pdf这类矢量文档)和扫描文档(图片形式的像素文档),人们提出了不同的方法,图表提取过程能被分为两个步骤:文档分割图片与描述信息链接第一步定位并提取候选的 figure 和描述性文本,第二步将候选的figure 与它对应的描述性文本链接在一起。

图1

        有多种度量被用于评估图片提取系统。基于区域(region-based)的度量,例如目标框交集、候选框交集、交并比IOU已被用于将提取到的候选图片与ground truth进行匹配,然后这些度量的阈值和1-to1贪心匹配被用来确定最终的召回率和精确度指标。最近的图片提取系统,例如PDFFigures 2(Pdffigures 2.0: Mining figures from research papers)、PDFFigCapX(Figure and caption extraction from biomedical documents)、DeepFigures(Extracting scientific figures with distantly supervised neural networks),PDFFigures 2和DeepFigures都被研究者用于从学术论文中大规模提取图片。

2.1  document segmentation

        文档分割方法可被分为自顶向下、自底向上两类。第一类方法从完整页面开始,将页面划分为多个区域。第二类方法通过对文档中的图像和文本单元进行分组来构建区域。基于输入文档的格式不同,这些方法可以分为:基于像素(raster-based)、基于矢量(vector-based)、混合类型。目前的研究趋势聚焦于矢量文档。但是,矢量图能被转化为像素图像,从而也能使用基于像素的方法。

2.1.1  Raster-based segmentation

        传统方法采用启发式方法将页面按照自顶向下或者自底向上的方式分割成均匀区域,然后将这些区域归类为文本或者图片(类似将若干个像素视作一个区域,然后对区域归类)。最近的方法采用深度神经网络来从文档图像中直接定位、提取和分类图像区域(常用方式是借助CNN卷积提取图像的高层次特征,然后检测出chart和caption所在区域)。基于显著性的注意力模型可以优化一般图片的检测,但是可能在具有较大空白区域或者图表显著性较低时检测效果下降(显著性较低可以理解为图表的边缘不明显,所以检测难度较高)。围绕图形区域的文本区域可以被视为描述性信息,而与图片区域重叠的文本区域被视作图片内部的文本元素。

2.1.2  Vector-based segmentation

需要先理解矢量图的性质,矢量图中并没有像素,不管是几何图形还是文字,都通过一系列的数学公式来表示

        这类方法仅使用指令(例如PDF运算符)分析来从矢量文档中提取图片,这是具有挑战性的,因为与图片相关的几何运算符可能与其他运算符混合,没有明显分界,例如能被用于表示单词、行或段落的文本操作符,很难区分几何运算符和文本运算符(因为这些运算符都是数学公式)。PDF文档是基于状态的,这需要通过自定义解析器进行跟踪,并使用指令来渲染基本元素(文本、路径、像素图片),这些状态相关的操作可以转化为自包含对象是一个独立的、可重用的单元,具有高度灵活性和可扩展性)。

        启发式方法可以用于估计给定页面上的图片数量,然后使用不同的方法查找表示图片的PDF操作符,其他的几何元素例如logo或表格必须使用启发式方法或者机器学习方法从图片上分离,最后通过文本操作符直接定位描述性文本。

2.1.3  Hybrid segmentation

        这类方法将基于矢量的文档分析方法与渲染相结合来进一步实现基于像素文档的分割任务。许多研究依赖于现有的工具(PDFBOX)来从文档中提取文本和图片,但是这些通用的PDF解释器通常会忽略描述信息,因此,一些研究提出了能够直接分析文本操作符的PDF解释器,一些研究基于学术论文布局假设来定位描述性信息。然后渲染非文本PDF操作符,有时仅考虑PDF操作符影响区域的近似区域来加速渲染。基于像素的分割模型能被用于在渲染图形上寻找图片候选区域,原始的PDF操作符既能用于精细化所得到的图形,也可以提取SVG等矢量格式的图形。最后,与图片区域重叠的文本区域将被视作图片文本而加入到图片区域中。总的来说,这些方法在标准布局的文档上效果更好。

2.2  Linking Figures to Captions

        这个过程输入图片与描述文本,然后匹配图片-描述信息。描述性信息被假定与图片位置接近,通常在同一页内,但是在实验中存在例外。描述性信息的几何性质和其他基于文档布局的启发性方法被用于计算链接描述文本和图片的开销(大致来说,描述信息与图片距离越远,开销就越大),然后,可以采取贪心算法以迭代的方式选择最佳匹配,或者使用Hungarian方法来寻找最优方案以最小化开销。一些方法允许将一段描述信息与多个图片链接,这些图片随后成为一个多面板图,一些被拒绝的描述信息能作为figure mention被进一步提取。

需要区分figure caption和figure mention。caption一般是指图片标题中的文本内容;mention是指正文中引用到该图片时,引用处的上下文文本。

3  Multi-panel Chart Segmentation

多面板图的概念参考图3

        大部分图片、图表在学术论文中以多面板形式存在,一种通用的流水线图片分割方法如下图所示。对于多面板图表图像,部分元素可能被多个面板共享,一般的图像分割技术可能会过度分割这些多面板图,从而导致相关的子组件被孤立出来,而这些子组件是正确解释所有子图所必需的。描述性文本需要被划分,每个部分需要与特定的子图表链接,因此,需要先进的分割模型来确保后续数据提取能进行。

图2

        多面板图分割方法使用召回率、准确度和f1-score进行评估。不同的协议使用不同的标准,通常基于候选区域与真实区域的重叠比例来确定哪一个子图分割方案是正确的(Automatic separation of compound figures in scientific articles)。

3.1  High Level Classification

        图片有单面板图和多面板图,不同的分类方法已被用来正确识别和处理多面板图形。分类算法可以用于决定给定图片应该使用哪种分割算法,这会比随机选取分割算法更加高效,并且避免过度分割单面板图。(Viziometrics: Analyzing visual information in the scientific literature

3.2  Figure Caption Analysis

        图片标题分析的目标是识别子标题分隔符,可用于估计图片中子面板的数量,以协助图像分析。启发式规则通常识别用作标题分隔符的特定字符串(如‘(A)’,‘(B)’ 等),将每个子标题链接到一个或多个子面板图。下一步是将标题拆分为子标题并将其关联到对应面板中。

3.3  Panel Label Extraction

        嵌入在图像中的面板标签可以由一些方法检测与识别,这些标签在多面板分割和将面板与标题链接过程中很有用。早期的模型依赖于高对比性假设(标签部分在图片中容易分辨),并使用连接成分分析(CC)来检测面板标签。

        而最近的方法使用基于路径的分类器和深度神经网络,检测到的标签之后会进一步被识别,但预期的类别通常局限于常见标签集合。为了确保这种一致性并消除false positive,采用了不同的方法,例如启发式规则、马尔科夫随机场、卷积神经网络和集束搜索优化等,这些方法可能会因为低图像质量和非规则面板布局而导致失败。

Localizing and recognizing labels for multi-panel figures in biomedical journals

Unified deep neural network for segmentation and labeling of multipanel biomedical figures

3.4  Panel Segmentation

        创建多面板图的方式有三:在面板之间留下缝隙;将多幅图像拼接;两种方式混合。在这里,我们涵盖介绍了三种类型的分割算法。

图3

3.4.1  Gap-based Segmentation

        这类方法依赖于不同面板间存在的有颜色差异的间隔空间。首先,使用像素轮廓和其他方法来确定间隔,然后使用自顶向下递归分割图像间隙来寻找子图。当空隙缺乏足够的显著性时会发生欠分割。如果图像内部存在空隙,可能发生过分割,但是可以使用不同标准(预期板块数)来提前终止递归切割以减轻过分割这类错误,或者可以使用启发式和机器学习方法将过分割的面板合并。

3.4.2  Edge-based Segmentation

        有些多面板图是通过多个图像无间隙拼接创建的,在面板边界处可以创建出“edges”,这类方法可以检测到这些“edges”从而实现多面板图分割。为了增强和检测面板边界,需要采用不同的图片处理技术,可以使用基于自顶向下的递归分割方法或者检测面板边缘的拐角来成功分割面板。当在面板边界处找不到“edges”时可能会出现欠分割,当面板图像内部存在颜色突变的部分时,这部分可能会被识别为边界,从而导致过分割。

3.4.3  Object-based Segmentation

        这类方法将面板切割视作对象检测问题。早期的方法使用连接成分(CC)分析寻找候选面板,但是这些方法可能过分割图表和其他图片类型。近期的方法使用CNN来定位图片中的面板,但是如果没有约束条件,这些方法可能会产生重叠的面板区域,如果相邻的面板看起来相似可能欠分割,如果面板内包含多个图表则可能过分割。相较之下,对文档布局进行显式建模可能得到更好的结果,这类模型可以同时提取候选的面板与面板标签,并且精度比上述单独提取的方法更高。

3.5  Sub-Figure Parsing

        上述步骤生成候选的面板列表及其相关联的子标题,如果面板计数估计(从子标题分析)和分割算法实际得到的面板数不一致,将会在本步骤解决差异。对于自底向上模型存在的过分割情况,会对候选子面板采取进一步的聚类。当存在多种分割方案时,会选择与面板计数估计结果最接近的方案。如果一个面板具有匹配的标签,会优先采用该面板,布局启发式可用于评估和修正面板分割误差。但是,如果OCR得到的面板计数估计结果出错将会导致面板分割结果出问题。

4  Chart Classification

        从图表中提取数据需要通过图像分类算法将图表从其他可视化信息中拆分出来。

4.1  Figure Taxonomies

        可视化信息一般可以通过它们的功能、结构、可视化信息搜索任务进行分类。本文主要调查图表与非图表的分类,然后是图表类型的分类。

4.2  Methods for Classification

        许多图片分类方法首先对判断图片类型(矢量图、像素图等),然后判断具体的图表类型,许多原始的上下文信息对后续分类(尤其是多面板图)有帮助。我们大致将图表分类算法划分为四类:model-based、heuristic-based、bags of visual words(BoVW)和deep learning。

4.2.1  Model-based

        使用先验信息来为每种类别分别创建一个模型。(老方法,跳过)

4.2.2  Heuristic Features

        这类方法使用基于启发式的特征生成基于向量的图像表示,以便后续通过机器学习实现分类,视觉特征与文本特征都得到考虑。许多方法使用线段、曲线、矩形、闭合轮廓等特征来描述物体,这些特征很容易从矢量图中获取。对于灰度图,借助像素强度来提取基本统计量、直方图、共生矩阵等特征。对于二值图,通常使用密度、轮廓等其他特征。对于边缘图像(边缘提取之后得到的图像),使用方向直方图(direction histograms)、距离直方图(distance histograms)、轮廓等特征。对于彩色图,使用基于颜色的特征。最后,还有许多模型使用纹理描述符,例如偏度、熵、平滑度、边缘差异性等。

        得到特征向量之后,接着使用基于机器学习的方法(例如k近邻算法、决策树、逻辑回归等)来完成分类。

Automatic separation of compound figures in scientific articles

4.2.3  Bags of Visual Words(视觉词袋模型)

        这类方法是通过由重复出现的图像块或者图像特征(统称视觉单词)所组成的视觉词典来学习基于向量的图像表示。在训练过程中,对固定数量的视觉单词进行密集采样或者伪随机采样,然后通过对采样到的视觉单词进行聚类(例如K-means)从而生成视觉词典。之后,在视觉词典和从视觉词典中提取的视觉单词之间建立响应直方图(histoframs of response)来表示图像,通常会根据图像区域(例如不同象限)来建立多个直方图。此外,可以添加额外的启发式特征来进一步提高分类精度。最后,SVM或随机森林等机器学习技术可被用于图像分类。

对于文本序列,视觉单词就是在文本中出现过的单词(注意不一定是所有出现过的单词,而是采样到的部分单词),视觉单词共同组成视觉词袋,之后统计一个文本序列中各个视觉单词的出现次数,并用次数代替单词。)

(对于图像,先将图像切分成多个切片,然后对切片使用聚类算法,得到若干个聚类中心,也称为特征点,以特征点作为视觉单词组成视觉词袋。另一种理解是将图像中的基本元素视作视觉单词,比如柱状图中的矩形,之后统计基本元素在图像中的出现频率

例如

样本为:文本1. I like apples,I like bananas.  文本2. I like playing games.

词袋为:[I,like,apples,bananas,playing,games]

生成的直方图为:

4.2.4  Deep Learning

        最新的图像分类方法基于深度神经网络。一些方法使用启发式特征作为深度神经网络分类器的输入,但大多数方法使用CNN来从训练样本中直接学习特征表示。特定网络层的输出也可用作可训练的特征表示,可以反馈给其他分类器。常用的图像分类网络框架如AlexNet、VGG-19、ResNet、DenseNet等已被直接用于图表分类任务,只需要少量改动甚至不需要改动。为了应对该领域缺乏大规模数据集的问题,可以先在大规模数据集ImageNet上进行预训练,通过将深度卷积特征和启发式特征相结合,可以进一步提高图像分类的准确度,利用目标检测网络可以将图形提取和分类结合起来。

5  Extracting Data from Charts

        图表数据提取的目标是还原创建图表时应用到的数据。我们在文献中寻找从图表中半自动或全自动数据提取方法,半自动方法包括:Dagra、Plot Digitizer、Engauge Digitizer、DataThief,但是半自动方法需要人工参与,所以我们主要专注于全自动数据提取方法。

        图表数据提取难度很大,由于图表风格多样化,创建一个适用各种类型风格的图表识别系统是很困难的。彩色数据标记一般比较容易提取,但是很多图标都是灰度的。尽管存在这些挑战,数字生成图表图像并不存在自然图像中常见的其他类型噪声。本部分,我们首先调查方法来应对常见的图表数据提取挑战,然后讨论特定类型的图表解释方法,最后,给出对图表进行更高层次解释的方法。

5.1  Context Analysis

        重要信息可以从图表的原始上下文中提取。如前所述,这些信息在多面板图形分割和图形分类中是有用的,在后处理(例如图表信息推理、图表检索、图表总结)中也是有用的。特别地,许多方法分析图表的caption和mention,这种分析需要借助自然语言处理技术,如:去停用词、次干提取、句法分析、命名实体识别等。

5.2  Raster Image Pre-Processing

        不同的图像处理技术通常用来制备用于数据提取的像素图像。许多方法认为在特定颜色空间(例如灰度空间、LAB等)中进行图表元素分割会更简单,并且这些方法会使用颜色变换。基于预期的图像源噪声类型,不同的方法使用高斯平滑、中值滤波器、双边滤波等噪声去除技术。一些系统尝试使用CC分析以及用于语义分割的深度神经网络来将文本从图形组件中分离出来。此后,特别是使用语法的作品,将图形图像转换为矢量。

5.3  Raster-To-Vector Conversion

        Raster-To-Vector Conversion是指输入一幅像素图像,输出一幅由直线、曲线等矢量单元组成的矢量图。许多实现这一转化的方法都会先取出图像中的文本,然后增强图像中的基本形状。将图像矢量化的一种方案是识别小的线段,然后将小线段组合成更长的直线或者曲线,可以使用曲线拟合算法来验证候选矢量单元,并可以将矢量单元参数化表示。

另一种方案是使用连接成分分析,如果一个连接成分不是直线,就用轮廓来替代,然后进一步将轮廓切割成基元。(Getting computers to see information graphics so users do not have to

最后一种方案是使用迭代追踪算法,该算法从一些不属于任何曲线的像素点开始,然后追踪像素点,直至接触到交叉点。不断重复这个过程直至所有的像素点都属于某条曲线。(Chart detection and recognition in graphics intensive business documents

5.4  Processing Text in Charts

        图表理解非常依赖于图表文本处理的准确度。大多数方法首先定位文本在图像中的区域,然后使用OCR技术还原文本,最后将还原出的文本与文本区域进行分类。

5.4.1  Text Detection

        图表图像文本检测问题的复杂性介于扫描文档图像和自然图像之间。图表图像中稀疏分布着半结构化布局、朝向、字体、颜色、大小各有不同的短文本,并且由于图表中存在其他的几何图形,导致图表文本检测更具难度。目前,一些方法使用OCR技术,但是主流的方法是基于连接成分分析、纹理分析和CNN。

        基于连接成分分析(CC analysis):将图像二值化处理,然后提取连接成分。这类方法的难点是识别文本的连接成分,现有的方法是使用几何特征(归一化后的CC高度、宽度、面积)、结构特征(CC像素密度、二值模式、边缘方向)、位置特征(质心、边框边角点)、纹理特征(Gabor滤波器)。

        基于神经网络:通过神经网络进行语义分割识别文本CC。分离出文本CC后,进一步分组成单词或行,然后使用布局规则、分割树、投影轮廓、牛顿引力公式、形态学操作、聚类算法等进行识别。(Visualizing for the non-visual: Enabling the visually impaired to use visualization

       自然场景文本检测的方法也被用于图表检测,现有方法主要使用深度神经网络。对象检测CNN模型能被用于检测图片中围绕着图表的文本内容,利用这些网络还可以将文本检测和文本分类结合起来。

5.4.2  Text Recognition

        定位到文本区域后,下一个任务是识别内容。大多数图表都是数字生成的,因此可以使用标准OCR系统来进行排版文本识别,这包括开源和商业系统,如:Microsoft OCR、Tesseract、ABBYY FineReader和Ocropy,运行多个方向的OCR系统可以帮助提高整体的识别准确度。卷积循环神经网络也被用于图表文本识别。(Data extraction from charts via single deep neural network

        下一步是微调OCR结果,用于文档OCR的传统策略对图像文本识别没有任何改进,这可能是由于图表中文本区域的孤立性造成的。解决该问题的一种方案是使用来自上下文(caption或mention)的文本来实现词汇校正(词汇校正是指对单词的拼写、词形和句法进行自动修正的过程,对传统OCR识别的结果进行校正显然可以提高文本识别准确率),但是这种方法对词汇标记很敏感,特别是存在复合名词时。

        文本识别的评估指标包括字母错误率、单词错误率、Levenshtein距离(将一个字符序列转换为另一个字符序列所需的最少单字符编辑(插入、删除或替换)次数,它通常被用作衡量两个字符串之间距离或相似度的度量标准)和直观型模式匹配(基于结构相似性而非精确匹配检测字符序列中的模式的方法)。

5.4.3  Text Role Classification

        准确的图表数据提取需要理解每个文本区域的类别,常见类别包括:标题、坐标轴标题、刻度标签、图例标题、图例主体等,还有一些不常见的类别:数据标记名称、数据标记值、单元标签等。不同类之间的不平衡让文本角色分类变得困难。

        许多启发式特征已被用于文本角色分类,包括几何特征、布局特征和文本特征。文本框的几何与布局特征包含:拐角位置、纵横比、中心点坐标、与图像边界距离、旋转角度等。基于文本的特征包括:大小写、字符串长度、字符是否为数字等。基于SVM、随机树、决策树和朴素贝叶斯的分类器会结合上述特征实现文本角色分类。目标检测网络可以同时预测文本区域的位置和角色。(Chart-text: A fully automated chart image descriptor

5.5  Axis Detection and Understanding

        从特定图表类型中提取数据需要检测坐标轴,因为数据标记值的推理需要结合坐标轴、刻度线、刻度值,否则只能得到相对值。多数图表仅有x轴与y轴,但也存在许多三维可视化图表,它们增加了z轴。本部分将探讨自动识别坐标轴技术。

5.5.1  Detecting Axes Lines

        多数模型假设坐标轴的位置固定(x轴位于下方,y轴在左方),坐标轴是图表中最显著的直线。对于像素图,使用基于轮廓投影(projection profiles)、Hough变换(将像素坐标转换为参数空间中的曲线或点,在参数空间中寻找具有一定特征的曲线或点,进而检测图像中的集合形状)和连接成分分析的方法来检测坐标轴。基于轮廓投影的方法假设坐标轴线和刻度线会在二进制像素生成的轮廓中产生峰值,并且通过定位这些峰值来选择候选轴线。基于HT的方法首先使用边缘检测算法,然后应用HT寻找轴心线,比较上述两种方法,发现HT对轴的微小旋转不敏感。使用CC分析方法会假设不同坐标轴线之间是相互连接的,因此图像中存在连接成分。对于矢量图,能使用启发式方法从直线中直接识别出候选坐标轴。

        然后从候选坐标轴线中选择最终的坐标轴线。网格线和边框会导致生成一些错误的候选坐标轴,多数方法使用基于直线的位置和长度来过滤,然后用刻度线位置来选择最终的候选坐标轴。

5.5.2  Detecting Tick Marks

        刻度是位于坐标轴上的标记,有助于定义图表的取值范围。通常情况下,由于刻度与坐标轴的关联性,可以使用启发式规则来检测。一些方法假设刻度在坐标轴上均匀分布,然后使用快速傅里叶变换来检测刻度线。

5.5.3  Inferring the Range and Scale of Axes

        首先,可以识别到的刻度值应该与其对应的刻度标记以及该标记在坐标轴的位置相关联。对于使用线性尺度的坐标轴,从像素空间到坐标轴空间的映射是一个仿射变换,可以从两个刻度值之间的像素距离来估计,并且可以使用RANSAC等方法处理刻度值的潜藏OCR错误。但是,值得注意的是,许多图表使用其他非线性尺度( 例如对数),或在其尺度中出现中断,表示单位或者尺度乘子的标记一般会出现在文本区域内,为了准确推断数据范围和尺度必须考虑这些信息。

5.6  Legend Detection and Understanding

        legend是指图例,具有多类数据的图表通常需要使用图例来识别它们,处理图例实际就是将数据表示(下图中的不同色块)和数据标记名称(搜索引擎、直接访问等名称)相关联。多数情况下,图例条目会成为提取的数据表格的表头。

         一些方法假设图例被划定为包含文本元素和数据标记的矩形区域,并通过找到符合这些假设的大矩形来检测图例。部分方法使用CC分析来实现,其他方法依靠文本角色分类来检测图例区域,它们使用基于位置的启发式,优化模型(例如Hungarian方法)]以及最近的关系网络将数据标记与图例条目相关联。多个数据标记名称被分割到多个文本区域可能会导致这些方法失败。

5.7  Per Chart Type Data Extraction

5.7.1  Line, Area and Scatter Charts

        对于折线图,图例分析的结果可以估计图表中的线条数量,对于数字生成的矢量图形(例如SVG、D3等),只要能正确识别线条,就可以准确地提取线条,并且重叠的曲线和虚线不会像像素图一样造成干扰。针对像素图的方法需要不同的方法提取线条:采样、跟踪、切分和文法

        基于采样的方法会设置一组垂线,然后寻找这组垂线与图表曲线的交点,这些交点就是采样点。然后使用局部描述符将这些点聚类,每一个聚类就是一个图表线。这类方法可以处理折现和虚线。(Associating text and graphics for scientific chart understanding

        基于跟踪的方法通过扫描图表区域来找到属于图表线的像素,然后使用像素、连接线、图像块来跟踪图表线。这类方法可以处理折线和虚线,但是当图表线梯度很大时,可能会错误识别成折线。(Automated analysis of line plots in documents

        基于分割的方法旨在将整条图表线从背景像素中分割出来,这是用基于颜色的启发式算法(例如,基于色调的颜色量化)完成的。其他方法使用深度神经网络来学习数据标记的嵌入,这反过来又被用于通过最小化从线到数据标记块的匹配块的成本来分割出线。这类方法中有一些可以处理折线。

        基于文法的方法从矢量化的图像开始,并使用自底向上的分析从低级元素如直线和椭圆弧识别图表线。这些模型的主要缺点是定义文法的代价,而文法可以很好地处理大量的图表集合。这类方法的缺陷是只能处理多条颜色不同的线条。

        对于散点图,识别图例后可以通过图例中的形状和颜色来识别图表中给的散点元素。进一步的处理可能需要分割重叠的数据标记。对于基于颜色的启发式方法,数据区域中的彩色文本可能会导致错误。最近的方法通过使用目标检测网络来定位图表中的数据标记,但是可能会过分割数据标记,并且在稠密的图表上无法很好地工作。

5.7.2  Bar and Column Plots

5.7.3  Pie and Donut Charts

5.7.4  Miscellaneous Chart Types

5.8  High Level Chart Understanding

        许多图表的设计是为了简单地显示数据,但有些图表是为了突出数据本身的特定趋势和其他相关特征而创建的。这是图表的高层次信息,足以概括整个图形。许多方法旨在从图表图像中推断出这些信息,本文将讨论为实现此目标而进行的大量工作。

        文献中探讨了不同类型的图表可以传递的高层次信息,包括具有一个或多个数据系列的条形图、折线图和饼图。基于图表信息所描述的内容,它们可以被粗略地分组为:趋势、等级、间隙、关系、显著性、实体比较、计算和其他信息。有些图表可能会呈现多个信息,但它们试图识别最相关的信息,因此可能会错过其他相关的想法。在评估其方法时,他们会根据其准确性来排序(置信度>50%)由人类编码员注释的最高图表信息。

6  Chart Analysis Applications

重新设计和完善图表可视化

图表的文本性总结

图表的可访问性

图表检索

视觉问答

文献计量学

二、论文总结

        这篇论文介绍了自动图表识别领域的最新进展,并且详细叙述了图表识别的各个步骤:

(1)从文档中识别到图表区域;

(2)如果是多面板图表,需要进一步分割;

(3)识别图表类型;

(4)从图表以及上下文中提取caption和mention;

(5)检测坐标轴、刻度,推断数据取值范围;

(6)识别图例,借助图例分割图表的data series(数据序列,例如折线图中的不同折线、饼图中的不同扇区);

(7)针对不同类型的图表,结合上述的分析结果,从中提取数据点和数据点取值,并绘制成表格。

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值