原文标题:IntermediateTableau guide for data science and business intelligence professionals
作者:PAVLEEN KAUR
翻译:李海明
校对:顾佳妮
本文约5000字,建议阅读8分钟。
通过这篇文章,教大家使用Tabelau软件,不用编程就可以做简单的数据分析。
介绍
“图片最大的价值就在于它能驱使我们发现之前从未意识到的内容。”——John W. Tukey
我们假设你手里有一些数据,但你并不擅长编程,却希望能够从中收集并整理出一些自己的见解。这时你可能会手足无措,不知该从哪里开始。
让我来告诉你——借助Tableau,你可以让数据中的信息像下面这张图表一样一目了然,而且操作简单完全不用编程。 快来见识一下Tableau的神奇吧!
本文主要针对:对Tableau软件已经比较熟悉的、可以用其绘制一些基本图表并且希望能够通过学习开阔视野的人士。
对于那些从未领略Tableau的曼妙与简约的初学者,请先快速阅读Tableau入门(https://www.analyticsvidhya.com/blog/2017/07/data-visualisation-made-easy/),尝试进行一些简单的可视化练习后,再回到本文不迟。
这篇文章将会探讨一些能够帮助我们用Tableau绘制动态图的核心功能。现在,就让我们赶快开始吧!
目录
1. 多源数据处理
数据连接
数据融合
2. 数据的条件组合
集合
3. 数据计算与粒度选择
4. 参数控制
5. 结束语
多源数据处理
数据连接
在一个表里存储所有的数据是不现实的。为了避免更新带来的数据异常,一般总是把数据存储在多个关系表里。为了便于理解,这里举一个简单的例子。
现有一家想要扩大经营的超市,发现退货订单量每天都在增加。为了分析出产品被退回的原因并找到正确的应对方法,他们绘制了下面这张图表;
从上表中可以发现,被退回数量最多的产品是粘合剂。若以条形图的颜色判断,机器类与桌类产品退货率(退货/购买)最高。
上面这张图表看起来与前一张似乎没什么两样,但实际上它是由两个表的数据——订单表与退货表组合建立的。这就是通常所说的连接。
我们再举一个例子来便于理解连接:
点击这里下载该样本超市的销售数据。(https://github.com/pavleenkaur/TableauTutorial-SuperstoreData/blob/master/Sample-Superstore.xls)
打开Tableau并倒入数据:
该数据集合由三个表组成:订单表(Orders),订购人表(People)与退货表(Returns)。在这里我们先关注订单表和退货表。
拖拽Orders至空白处并使用数据解释器来清除错误数据。
拖拽Returns至同一区域,便得到下图所示:
把两个表进行连接后,至少可以得到一个交叉区域, Tableau会根据两张表的公共列订单ID,自动将这两张表进行内连接。通过内连接, 只保留两张表中有相同订单ID的数据行。
你也可以更改Tableau中的连接方式与连接字段, 需要确保对连接做的修改是可行的。
更改连接方式(从内连接到右外连接):
更改连接字段:(连接字段)