数据科学、机器学习和AI的区别
很多时候,我都是搞不清楚这三者之间的区分,区分不了就容易走入误区,开发的应用也就做的四不像,无法抓住重点,也无法向客户、朋友、同事解释这个应用究竟解决什么。
三者之间的区分讲解:
假设我们正在制造一辆自动驾驶汽车,并且正在研究如何在停车标记处自动停车的具体问题。那么我们将需要使用这三个领域的技能。
机器学习:
汽车必须能够通过摄像头识别停车标志。我们构建了数据集,其中包含数以百万计的街边对象的照片,并训练一种算法来预测哪些有停止标志。
人工智能:
一旦我们的汽车能够识别停车标志了,就需要决定什么时候执行刹车动作。太早太晚都非常危险,而且我们需要它能应对不同的路况(例如,它要能意识到在湿滑路面上刹车不会快速减速),这是一个控制理论的问题。
数据科学:
在街头测试中,我们发现车辆性能不够好,因为总会略过一些停车标志。通过对街头测试数据的分析,我们得出了结论:在日出之前和日落之后,更容易错过停车标志。这让我们意识到,我们大部分的训练数据只包含白天的影像,所以我们构造了一个包括了夜间图像的更好的数据集,然后重新回到机器学习步骤进行研究测试。
什么是数据可视化
数据可视化是任何数据科学或机器学习项目的一个重要组成部分。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。也就是说可视化的存在是为了帮助我们更好的去传递信息,发现数据里的规律。
人们常常会从探索数据分析开始,来深入了解数据,并且创建可视化确实有助于让问题更清晰和更容易理解,尤其是对于那些较大的高维度数据集。在项目结束的时候,能够以清晰的、简洁的和令人信服的方式呈现最终结果,这是非常重要的,让你的用户能够理解和明白。
数据可视化是关于图形或表格的数据展示。在一个被关注的连贯而简短的报告中体现大量的信息。虽然数据可视化可以处理书面信息,焦点往往是使用图片和图像信息传达给观众。此外,数据可视化不仅限于涉及到数据的使用。也可能是可视化各种各样的信息 – 你可以将自己的想法与猜想与他人交流。如今,可以添加各种技术应用到数据可视化,甚至是选择交互式的可视化方法。信息的视觉化表达是一种古老的分享创意与体验的方法。图表和地图是一些早期数据可视化技术的重要例证。
数据可视化的重要性
人类已经使用数据可视化技术很长一段时间了,图像和图表已被证明是一种有效的方法来进行新信息的传达与教学。有研究表明,80%的人还记得他们所看到的,但只有20%的人记得他们阅读的!它甚至可以把思想和事件传给后代。技术的发展进一步提高了数据可视化带给人们的机遇。
也许使用数据可视化的最重要的好处是它能够帮助人们更快地理解数据。你可以在一个图表中突出显示一个大的数据量,并且人们可以快速地发现关键点。在书面形式,它可能需要数小时来分析所有的数据及联系。
此外,这种展示巨量数据的能力是另一个数据可视化的优点。一张图表可能会突出显示一些不同的事项,人们可以在数据上形成不同的意见。这自然能为商业开辟新的途径。人们或许能从数据中发现一些意想不到的东西。
数据的可视化展示,提高了解释信息的能力。从海量的数据和信息中寻找联系并不容易,但是图形和图表可以在几秒内提供信息。一望便知,可提供所需的信息。
数据可视化被普遍认为是一种简单而有效的方法来概括数据,因此它是可以提高人们的共享信息和学习的一种方法。
数据可视化解决了什么
数据可视化是为了更好地促进行动,所以要让行动的决策人看懂!
图表比数据表更有表现力。
每一种图表类型的诞生,都是由于明确而迫切的需要;所以当你需要在已知的图表类型中进行选择时,先想想自己想要解决的到底是什么问题!
传统的可视化可以大致分为探索性可视化和解释性可视化,按照应用来分,可视化有多个目标:
- 有效呈现重要特征
- 揭示客观规律
- 辅助理解事物概念和过程
- 对模拟和测量进行质量监控
- 提高科研开发效率
- 促进沟通交流和合作
按照宏观的角度看,可视化的三个功能:
- 信息记录
- 信息推理和分析
- 信息传播与协同
数据可视化分支
数据可视化包含三个分支,科学可视化(Sci Vis, Scientific Visualization )和信息可视化(Info Vis, Information Visualization),以及后来演化出第三个分支:可视分析(VAST, Visual Analytics Science and Technology)这个从IEEE VIS 会议的分类中可以看出来。
科学可视化面向的是科学和工程领域数据,比如空间坐标和几何信息的三维空间测量数据、计算机仿真数据、医学影像数据,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律。
信息可视化的处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是针对大尺度高维复杂数据如何减少视觉混淆对信息的干扰。
近几年来,随着人工智能的兴起,人们逐渐发现其实一些机器能比人做得更好的事情,同时也发现了一些事情需要借助人类 3 亿年的进化本领。所以将可视化与分析进行结合,产生了一个新的学科:可视分析学。可视分析学被定义为由可视交互界面为基础的分析推理科学,将图形学、数据挖掘、人机交互等技术融合在一起,形成人脑智能和机器智能优势互补和相互提升。
数据可视化类型
一般来说,大多数据可视化分为2种不同的类型:探索型和解释型。勘探类型帮助人们发现数据背后的故事,而解析数据方便给人们看。
此外,有不同的方法可用于创建这2种类型。最常见的数据可视化方法包括:
-
2D区域-此方法使用的地理空间数据可视化技术,往往涉及到事物特定表面上的位置。2D区域的数据可视化的例子包括点分布图,可以显示诸如在一定区域内犯罪情况。
-
时态-时态可视化是数据以线性的方式展示。最为关键的是时态数据可视化有一个起点和一个终点。时态可视化的一个例子可以是连接的散点图,显示诸如某些区域的温度信息。
-
多维-可以通过使用常用的多维方法来展示目前2维或高维度的数据。多维可视化的一个例子可能是一个饼图,它可以显示诸如政府开支。
-
分层-分层方法用于呈现多组数据。这些数据可视化通常展示的是大群体里面的小群体。分层数据可视化的例子包括一个树形图,可以显示语言组。
-
网络-在网络中展示数据间的关系,它是一种常见的展示大数据量的方法。
如何做好数据可视化的背后理念
看过数据可视化的人都明白设计的好坏。如果这些信息不是以正确的、恰当的方式呈现,那么数据可视化的好处就很容易消失,特定项目需要特定的方法。
无论你的信息是关于什么的,使用数据可视化时要牢记一些理念。
了解你的受众
呈现数据前首要做的是思考谁将查看这些数据,为找到合适的数据可视化方法,了解你的受众非常关键。
尽管数据可视化通常是一种简化数据的方法,受众可能仍然存在不同的知识背景,需要为此做好准备。如果你的数据可视化的目标是专业受众,那么你可以使用更适合的方法以及使用专业术语来解读数据。另一方面,普通受众可能需要相同的数据提供更加清晰的解释方式。
同样重要的是要知道受众对数据的预期。他们想要的关键点是什么?你需要清楚呈现到数据中。此外,还需要明白,你的数据意图。
足够的了解数据
除了知道你的目标受众,您还需要了解数据的内涵。如果你不完全明白你的数据,那么你将无法有效将其传达给受众。
你也无法从数据中提取所有信息,所以需要找到关键信息,并以一致的方式呈现它。还需要确定数据的正确性,不是虚构的 – 错误的数据不要可视化!
如果你正确地理解它,你也可以从数据中得到独特而有趣的信息。
讲故事
你的数据可视化还应当力求传达一个故事。你不希望这些数据是一组信息仅仅呈现自己,而是有使用数据背后的信息。这可能是关于引入不同的叙述,并为观众描绘的特定图像。
使用一个故事,往往意味着受众从数据中获得更多的洞察力。它可以帮助受众了解及深入新的信息。
事实上,数据可视化技术是个讲故事的好工具。俗话说:“图像可以讲述一千个故事”是有道理的,你应该用它来做为你的优势。通过数据集讲故事并不困难,因为你可以用颜色,字体及陈述做为你讲故事方法的一部分。为了使数据可视化讲故事的更加精彩,理解数据这点是至关重要的。
保持简单
近年来,数据可视化已经发展了很快,正如上面所说,有很多工具和系统供你使用。接触不同的独特方法并不意味着你需要使用它们。此外,大量的数据不应该机械地认为所有的信息是必不可少的。
总之,你需要保持你的数据可视化方法简单明了。你不要为了它而想着包含太多的数据信息或使用过多不同的技术。
如果你考虑通过镜头讲故事的,重要的是要了解你的视觉中的每个元素应该是故事必不可少的一部分。如果数据或元素,如某些事物的图片,没有添加任何重要的故事,那么你不应该把它包含在你的报告中。
拥有过多元素的可视化实际上会损坏成品并会偏离数据。你还需要记住数据可视化的好处是直观地呈现大量的数据。如果你的可视化看起来费劲,那么你需要回去看看是否使用了错误的数据呈现方法或包含了太多冗杂的信息。
避免可视化数据的严重误区
以上的关键方法可以帮助你建立一个数据可视化策略,你也需要清楚一些常见的错误。
错误信息
上述提到数据中的错误会误导受众。你需要确保那些正在看你数据的人,看到的信息正确。这是你的工作,以确保人们可以从你的图表和图像中使用数据,而不需要再次检查信息。
不完全信息
除了确保所有的信息是正确的,您还需要提供完整的数据。观察者必须在其全部信息中找到相关数据,不要使用数据可视化来欺骗或呈现不完整的信息。
数据可视化可以而且应该讲述一个故事,但故事需要有完整和正确的信息,而不是一份报告中看起来合适的数字。
简单的数据
虽然你需要确保你的数据是在用一个简单的方式呈现,这并不意味着你应该简化它。首先,你需要记住受众–如果你展示给数据的专业人士就不要使用常见的简单语言。另一方面,如果受众对它没有什么意识,就不要用专业术语来填充文字。
除此之外,你也不能期望你的受众在没有借助清晰描述可视化的情况下就能清楚地了解数据之间的联系。你不能因为它似乎显而易见而省略信息-记住,你的受众只会看到你目前的数据,而不是过去使用过的完整数据集!
不合适的可视化
当你呈现数据,你需要仔细思考这些数据。当谈到如字体,颜色和图像,背景是非常重要的。例如,如果你是呈现由于特定的疾病而导致死亡的信息,一个色彩鲜艳,令人愉快的图像似乎是不合适的。
不恰当的可视化涉及到所使用的技术,使它难以查看和理解数据。例如,你可以使用气泡来代表你的部门不同的消费水平,但如果不考虑尺寸的差异,气泡就会误判和不准确。
遗忘注释
过度简化也可能导致缺失注释。当你呈现数据时,很容易假设受众知道图像的每一个方面是什么。简单的添加的注释可以提高用户体验,并确保受众知道你的数据中的所有数据关键点。
作为一个例子,你可能有一个图表显示你的企业在过去十年销售自行车量。如果数据中有一个大的下降或是上升,一个注释解释了这个突然变化背后的原因,将确保观众得到这个额外的信息。
数据可视化的开发流程
首先我们需要对我们现有的数据进行分析,得出自己的结论,明确要表达的信息和主题(即你通过图表要说明什么问题)。
然后根据这个目的在现有的或你知道的图表信息库中选择能够满足你目标的图表。最后开始动手制作图表,并对图表进行美化、检查,直至最后图表完成。
常见的数据种类
为了更好的进行可视化,我们将数据分为4大类:时序数据、分类数据、多元变量数据和空间数据。
时序数据
时序数据也称时间序列数据,是指同一统一指标按时间顺序记录的数据列。如:每个月的新增用户数量、某公司近十年每年的销售额等。诸如此类按时间顺序来记录的指标对应的数据成为时序数据。
分类数据
分类数据是指针反映事物类别的数据。如:用户的设备可以分为Iphone用户和andorid用户两种;支付方式可以分为支付宝、微信、现金支付三种等。诸如此类的分类所得到的数据被称为分类数据。
多变量数据
数据通常以表格形式的出现,表格中有多个列,每一列代表一个变量,将这份数据就称为多变量数据,多变量常用来研究变量之间的相关性。即用来找出影响某一指标的因素有哪些。
空间数据
空间数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。
空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。
数据可视化的各图表使用场景分类
比较类
可视化的方法显示值与值之间的不同和相似之处。 使用图形的长度、宽度、位置、面积、角度和颜色来比较数值的大小, 通常用于展示不同分类间的数值对比,不同时间点的数据对比。
图表列表:柱状图、气泡图、双向柱状图、 子弹图、色块图、漏斗图、直方图、K 线图、马赛克图、分组柱状图、雷达图
、玉玦图、南丁格尔玫瑰图、螺旋图、层叠面积图、层叠柱状图、矩形树图、词云。
分布类
可视化的方法显示频率,数据分散在一个区间或分组。 使用图形的位置、大小、颜色的渐变程度来表现数据的分布, 通常用于展示连续数据上数值的分布情况。
图表列表:箱形图、气泡图、色块图、等高线、分布曲线图、点描法地图、热力图、直方图、散点图、茎叶图 。
流程类
可视化的方法显示流程流转和流程流量。一般流程都会呈现出多个环节,每个环节之间会有相应的流量关系,这类图形可以很好的表示这些关系。
图表列表:漏斗图、桑基图。
占比类
可视化的方法显示同一维度上占比关系。
图表列表: 环图、马赛克图、饼图、层叠面积图、层叠柱状图、矩形树图。
区间类
可视化的方法显示同一维度上值的上限和下限之间的差异。使用图形的大小和位置表示数值的上限和下限,通常用于表示数据在某一个分类(时间点)上的最大值和最小值。
图表列表:仪表盘、层叠面积图。
关联类
可视化的方法显示数据之间相互关系。使用图形的嵌套和位置表示数据之间的关系,通常用于表示数据之间的前后顺序、父子关系以及相关性。
图表列表:弧长链接图、和弦图、桑基图、矩形树图、韦恩图。
趋势类
可视化的方法分析数据的变化趋势。使用图形的位置表现出数据在连续区域上的分布,通常展示数据在连续区域上的大小变化的规律。
图表列表:面积图、K 线图、卡吉图、折线图、回归曲线图、层叠面积图。
时间类
可视化的方法显示以时间为特定维度的数据。使用图形的位置表现出数据在时间上的分布,通常用于表现数据在时间维度上的趋势和变化。
图表列表:面积图、K 线图、卡吉图、折线图、螺旋图、层叠面积图。
地图类
可视化的方法显示地理区域上的数据。使用地图作为背景,通过图形的位置来表现数据的地理位置,通常来展示数据在不同地理区域上的分布情况。
图表列表:带气泡的地图、分级统计地图、点描法地图。
图表组件
基于数据的零部件有:视觉暗示、坐标系、标尺、背景信息以及前面四种形式的任意组合。
视觉暗示
是指通过查看图表就可以与潜意识中的意识进行联系从而得出图表表达的意识。常用的视觉暗示主要有:位置(位置高低)、长度(长短)、角度(大小)、方向(方向上升还是下降)、形状(不同形状代表不同分类)、面积(面积大小)、体积(体积大小)、饱和度(色调的强度,就是颜色的深浅)、色调(不同颜色)。
坐标系
这里的坐标系和我们之前数学中学到的坐标系是相同的,只不过坐标轴的意义可能稍有不同。常见的坐标系种类有:直角坐标系、极坐标系和地理坐标系。
标尺
前面说到的三种坐标系只是定义了展示数据的维度和方向,而标尺的作用是用来衡量不同方向和维度上的大小,其实和我们熟悉的刻度挺像。
背景信息
此处的背景和我们在语文中学习到的背景是一个概念,是为了说明数据的相关信息(who、what、when、where、why),使数据更加清晰,便于读者更好的理解。
组合组件
组合组件就是根据目标用途将上面四种信息进行组合,就是我们最后要呈现的图表样式,具体如何组合视你的目标而定。