论文研读-AI4VIS-可视化推荐-VizML: 一种基于机器学习的可视化推荐方法

1 论文概述

本文发表于CHI 2019。 作者来自MIT Media Lab和MIT CSAIL。

1.1 摘要

可视化推荐系统的目标是通过自动生成结果让分析师进行搜索和选择,而不是手动指定,从而降低探索基本可视化的障碍。

在这里,我们演示了一种基于机器学习的可视化推荐新方法,该方法从大量的数据集和相关的可视化中学习可视化设计选择。首先,我们确定分析师在创建可视化时所做的五个关键设计选择,例如选择可视化类型和选择沿着X或y轴对列进行编码。我们使用从一个流行的在线可视化平台收集的100万个数据集可视化对来训练模型来预测这些设计选择。与基线模型相比,神经网络预测这些设计选择具有较高的准确性。我们从这些基线模型中报告并解释特性的重要性。

为了评估该方法的通用性和不确定性,我们使用一个众包测试集进行基准测试,结果表明,我们的模型在预测共识可视化类型时的性能与人类的性能相当,并超过了其他可视化推荐系统。
在这里插入图片描述

1.2 引言

背景:
跨领域的知识工作者——从商业到新闻到科学研究——越来越多地使用数据可视化来产生见解、交流发现和做出决策[9,26,58]。然而,许多可视化工具由于依赖于代码[7,68]或点击[2,62]的手动说明,学习曲线陡峭。因此,越来越多缺乏时间或背景来学习复杂工具的领域专家往往无法访问数据可视化。
虽然需要创建定制的可视化,但是对于许多常见的用例(如初步的数据探索和基本可视化的创建)来说,手工规范是不必要的。在这些用例中,搜索的速度和广度比可定制性更重要[63],为了支持这些用例,系统可以利用数据集的属性对可视化的影响。例如,先前的研究表明,视觉通道(如位置和颜色)编码数据的准确性取决于数据值的类型[5,15,67]和[28]分布.

前人方案:
基于规则的方法:
大多数推荐系统将这些可视化指南编码为“if-then”语句的集合,或规则[21],以自动生成可视化,供分析人员搜索和选择,而不是手动指定[64]。例如,APT[35]、BOZ[13]和SAGE[52]使用感知原则的规则生成可视化并排序。最近的系统如Voyager[72,73]、Show Me[34]和DIVE[23]扩展了这些方法,支持列选择。虽然对于某些用例[72]是有效的,但是这些基于规则的方法面临着限制,例如昂贵的规则创建和可能结果[1]的组合爆炸。
基于机器学习的方法:
相比之下,基于机器学习(ML)的系统通过对分析师交互的训练模型直接学习数据和可视化之间的关系。虽然最近的系统如DeepEye[33]、Data2Vis[17]和Draco-Learn[37]都很令人兴奋,但它们并没有像分析师那样学会如何选择可视化设计,这将影响到可解释性和集成到现有系统的方便性。此外,由于这些系统在受控设置中使用规则生成的可视化注释进行训练,它们受到数据数量和质量的限制。

本文方案:
我们引入了VizML,这是一种基于ml的方法,使用大量的数据集和相关的可视化来实现可视化推荐。首先,我们将可视化描述为一个做出设计选择的过程,使效率最大化,这取决于数据集、任务和上下文。然后,我们制定可视化建议作为一个开发模型的问题,学习做出设计选择。
我们使用来自Plotly Community Feed[46]的100万个独特的数据集可视化对来训练和测试机器学习模型。我们描述了收集和清理这个语料库的过程,从每个数据集提取特征,并从相应的可视化中提取五个关键的设计选择。我们的学习任务是优化模型,利用数据集的特征来预测这些选择。

结果与评估:
在60%的语料库上训练的神经网络在一个单独的20%测试集中预测设计选择的准确率达到了70 - 95%。这一性能超过了四个更简单的基线模型,它们本身的性能优于随机概率。我们从这些基线模型之一报告特征的重要性,解释特征对给定任务的贡献,并将它们与现有的研究联系起来。
我们通过对众包测试集进行基准测试来评估我们模型的可泛化性和不确定性。我们通过从Plotly中随机选择数据集来构建这个测试集,将每个数据集可视化为一个条形、直线和散点图,并测量机械土耳其工人的共识。使用一个根据共识程度调整的评分指标,我们发现VizML的表现与Plotly用户和Mechanical Turkers相当,并且优于两个基于规则和两个基于ml的可视化推荐系统。

最后,我们讨论了初始机器学习方法在可视化推荐中的解释、应用和局限性。我们还提出了未来研究的方向,例如聚合公共训练和基准语料,将单独的推荐模型集成到端到端系统中,以及细化可视化有效性的定义

2 问题陈述

数据可视化通过用可视化元素表示数据来传递信息。这些表示是用从数据映射到实体属性的编码指定的:图形标记(例如点、线或矩形)的位置、长度或颜色[5,12]。

具体地说,考虑一个描述406辆汽车(行)的数据集,它有8个属性(列),比如每加仑行驶里程(MPG)、马力(Hp)和磅重(Wgt)[50]。为了创建显示mpg和hp之间关系的散点图,分析人员将每对数据点与二维平面上圆的位置进行编码,同时还指定其他属性,如大小和颜色:
在这里插入图片描述
我们将数据集d的基本可视化表述为一组相互联系的设计选择 C ={c}。然而,并不是所有的设计选择都会产生有效的可视化效果——有些选择彼此不兼容。例如,使用线标记的Y轴位置编码分类列是无效的。因此,产生有效可视化结果的选择集是所有可能选择的空间的子集
在这里插入图片描述

可视化的有效性可以通过信息度量,如效率、准确性和可记忆性(efficiency, accuracy, and memorability)[6,74],或情感度量,如参与度(engagement)[19,27]来定义。先前的研究还表明,除了任务[3,28,53]、美学[14]、领域[24

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《计算机视觉 : 一种现代方法 第二版 pdf》是一本介绍计算机视觉领域基础理论和方法的书籍。计算机视觉是一门研究如何让计算机能够“看”的学科,它使用计算机科学和人工智能方法来解决从图像或视频中获取、处理和理解信息的问题。 这本书是计算机视觉领域的经典教材之一,第二版对第一版进行了更新和扩充。书中首先介绍了计算机视觉的基本概念和应用领域,包括图像处理、模式识别和三维重建等。接着,书籍详细阐述了计算机视觉中的各种算法和技术,包括图像特征提取、目标检测与跟踪、图像分割和图像匹配等。 此外,该书还介绍了计算机视觉中的一些高级主题,如深度学习在计算机视觉中的应用、立体视觉和物体识别等。书中的内容深入浅出,既易于理解又具有一定的深度,适合作为计算机视觉领域的入门教材或用于相关专业人员的学习和研究参考。 《计算机视觉 : 一种现代方法 第二版 pdf》的特点包括内容详尽全面、理论与实践相结合、案例丰富。读者通过学习该书,可以获得对计算机视觉领域的全面了解,掌握计算机视觉的基本原理和常用技术,为进一步深入研究和应用提供基础。 最后,这本书广泛应用于计算机科学、人工智能机器学习、图像处理等相关专业的教学和研究领域。无论是学生、研究人员还是从业人员,都可以通过阅读该书来提高对计算机视觉的认识和应用能力。 ### 回答2: 《计算机视觉:一种现代方法第二版》是由David A. Forsyth和Jean Ponce合著的计算机视觉领域的经典教材。该书详细介绍了计算机视觉的基础理论、算法和相关应用,旨在帮助读者深入理解计算机视觉的概念和实践。 该书共分为16个章节,内容包括图像处理、图像特征、几何与相机模型、图像检索、物体识别与跟踪等方面。通过对这些章节的学习,读者可以系统地了解计算机视觉的基本原理和技术,从而为实际应用提供参考。 其中,该书第二版相较于第一版进行了重大更新和改进。新版书中包含了最新的理论和算法,如深度学习、卷积神经网络等,以及一些实际应用案例,如人脸识别、自动驾驶等。此外,书中还涵盖了现代计算机视觉领域的前沿研究和挑战,引导读者深入思考和探索未来发展方向。 《计算机视觉:一种现代方法第二版》以其系统性、全面性和权威性而受到广大学习者和研究者的欢迎。读者不仅可以通过该书学习计算机视觉的基本概念和技术,还可以通过练习题和实践项目提升自己的实际操作能力。年轻的研究者可以通过深入研读此书,拓展自己的研究领域;工程师和开发者可以将书中的理论和技术应用于实际项目中,提升工作效率和质量。 总之,《计算机视觉:一种现代方法第二版》是一本权威、实用的计算机视觉教材,对于想要深入学习和应用计算机视觉的读者而言,具有极高的参考价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值