信息可视化与可视化数据挖掘

Information Visualizationand Visual Data Mining

Daniel A. Keim, Member, IEEE ComputerSociety

摘要 历史上从来没有过像如今这么高量产生的数据。探索和分析大量的数据变得越来越难了。信息可视化和可视化数据挖掘可以帮助处理海量的信息。可视化数据探索的优点是用户直接参与数据挖掘过程。在过去的十年中,大量的可视化技术被开发来支持大规模数据集的信息探索。在本文中,我们提出了信息可视化,以及基于可视化的数据类型、可视化技术,交互和变形技术的可视化数据挖掘技术的分类。 我们用几个小的例子,来说明这个分类,他们中的大多数是指在这个特殊的部分技术和系统。

关键词:信息可视化;可视化数据挖掘;可视化数据探索;分类

 

1 引言

硬件技术的进步,允许今天的计算机系统存储大量数据。来自伯克利大学的研究人员估计,每年产生大约1 Exabyte (= 1 Million Terabytes)的数据,其中很大一部分是数字形式。这意味着,在以后的三年,将产生更多的数据,相比人类以往历史。这数据通常依靠探测器和检测系统自动记录。即便是每天简单的事务,例如信用卡支付,使用电话,这些都具代表性的记录在电脑上。通常,很多参数被记录,导致一个高维的多维数据。采集这些所提到的数据,是因为人们相信它是潜在的有价值信息的来源,提供一个竞争优势。寻找隐藏在它们中的有价值的信息,然而,这是很艰难的任务。如今的数据管理系统,唯一的可能观察到很小一部分数据。如果数据原本地表现,这个数据量能显示在某些100数据项的范围,但是当处理数百万具有数据项的数据集时,就像大海中的一滴水。由于,不可能充分的探索这些大量因潜在效益而收集起来的数据,所以这些数据变得无用,并且数据库变成数据垃圾场。

1.1可视化数据探索的好处

为了有效的数据挖掘,人类数据探索处理,并结合人类弹性,创造力,生产的知识和拥有巨大存储能力,以及运算能力的电脑。可视化数据探索目标是集成人类在数据探索的处理,应用如今电脑系统对大数据集的知觉能力。 这个可视化数据探索的基本思想是表现数据在某些可视化的方式,运行人类窥探数据内部,绘制结论,直接与数据交互。可视化数据挖掘技术已被证明是高价值的探索性数据分析,他们也有很高的潜力,针对大型数据库的探索。当很少了解数据,并且探索的目标是模糊的时候,可视化数据探索特别有用。由于用户是直接参与探索的处理,移动和调整,探索目标是必要时自动完成。

可视化数据探索的过程可以被看作是一个假设生成过程,数据的可视化允许用户窥探数据,并提出新的假设。假设的验证也可以通过可视化数据探索,但也可能通过自动完成从统计技术或者机器学习。除用户直接参与外,可视化数据探索的主要优点在从自动数据挖掘技术到统计或机器学习:

²  可视化数据探索可以轻松应对高的非齐次和噪音数据,

²  可视化数据探索是直观的,不需要难以理解的复杂的数学或统计算法或参数。

总而言之,通常一个可视化数据探索允许更快的数据探索,并经常提供更好的结果,尤其是在自动算法失败情况下。另外,可视化数据挖掘技术提供在探索研究结果的更加高度的信任。这一事实导致的可视化探索技术的高要求,使他们在连接自动探测技术中不可缺少。

1.2视觉探索的范例

可视化数据探索通常遵循三个步骤:先概述一下,zoom和filter,和按需求详细。

第一,用户需要能纵观这些数据,在这个纵观中,用户可以标记感兴趣的图案,并集中一个或多个。为了分析这个图案,用户需要向下挖掘和访问详细的数据。可视化技术可能用这所以的三步来进行数据探索过程:可视化技术对于显示和纵观数据很有用,允许用户标定兴趣的子集。在这一步中,保持查看可视化的同时利用另一种可视化技术集中在子集上。一个可供选择的是变化概观可视化,为了集中在某些兴趣的子集上。为了更远的探索兴趣子集,用户需要向下挖掘的能力,为了获取关于数据的详细信息。注意这个可视化的技术不能为这三步提供基础的可视化技术,但是也桥接这些步骤之间的缝隙。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值