所有表中的每一行记录,都描述的是一个完整的事件。
①把表数据结构的字段中,包含多种字段类型的表,叫做事实表。
表明它在记录同一类事件的一种变化。
如订单表,既有日期型数据,又有字符型数据,还有数值型数据。
②把表数据结构的字段中,只包含一种字段类型的表,叫做维度表。
维度表大多是一些描述性的数据,短期不会发生太大的变化。
如省份城市对照表,只有两个字符型数据的字段,描述省份和城市之间的对应关系,而且短期内不会发生太大的变化。
所以一般在事实表(如订单表)中,就不需要单独设置省份这个字段,只需要设置城市。
如果哪一天需要用到省份的话,再把 省份城市对照表 拿出来进行匹配就可以了。
这就是在进行数据分析之前,要做数据的横向合并,把多张表里的数据,合并成一张大宽表的原因。
Tableau Prep Builder提供了常用的数据处理功能,例如分组、转置、计算等,还提供了对 R 语言和 Python 脚本的支持。
数据准备:用Prep Builder清理数据与调整结构(上)——喜乐君
【Tableau实操】轻松掌握面板数据的横向合并(封神般的存在—prep builder——WY_to_be_better
有一些复杂的场景,比如:需要计算相关系数。
如何在 Tableau Desktop 中创建相关性值矩阵。
当无法使用 CORR 等高级聚合计算时,如何在 Tableau Prep 中计算皮尔森关联系数。
还可以通过 Prep 调用Python 脚本来加速数据清理,实现对多个字段计算皮尔逊相关系数。
1. Tableau的功能
(1)可视化——基础功能
(2)数据赋能(让业务一线也可以轻松使用最新数据)
分析师可以直接将数据看板发布到线上
自动更新看板(刷新)
自由下载看板的原数据、及图像
线上修改图表
邮箱发送数据
设置数据预警
(3)数据探索(通过统计分析和数据可视化,从数据发现问题,用数据验证假设)
支持亿级数据的连接和处理
自由地对字段进行各种计算
拖拽就可以轻松制作图表
数据可以随意聚合下钻
图表类型可以灵活转换
内置算法智能建模
Tableau Public 不支持实时数据连接,仅支持数据提取。
Tableau 支持实时数据连接 和 数据提取两种方式。
2. 数据可视化原理
离散型数据 和 连续性数据, 与 维度 和 度量并不是一 一对应的。
离散性数据包含三种:分类型数据中的名义数据 、分类型数据中的顺序数据、数量型离散数据。
连续性数据包含一种:数量型数据中的 连续数据。
《商务与经济统计 第13版 》P23
2.1 维度
维度即分类型数据。 ——用来进行区分
分类型数据包括名义数据 和 顺序数据。分类型数据都属于离散性数据。维度可以映射到图形中的:
形状的类别(三角形、圆形等)
颜色的类别(红、蓝等)
2.2 度量
度量即数量型数据。
数量型数据的一种分类方式是:间隔数据 和 比率数据。
另一种分类方式是:数量型离散数据 和 数量型连续数据。度量可以映射到的图形类别有:
坐标轴中的位置;
柱状图和条形图中柱体和条形的长度;
饼图和环形图中的角度(占比10%,则给360*10%的角度。);
折线图中的趋势方向(数据随时间维度形成高低变化,各数据点之间的连线形成了趋势方向);
二维平面中圆形或矩形的面积;
三维空间中立方体或球体的体积;
热力图中颜色的饱和度或深浅。应该优先使用 更容易 让人视觉get到区别 的图形类别:
(下面的“精确”代表人靠视觉区分图形所代表的度量大小的结果。)
还可以将 多种度量 分别映射到的 多种图形类别 放在一起,即形成了组合图。数据可视化领域的四大金刚:散点图、柱状图/条形图、饼图、折线图。
麦肯锡曾经做过详细的研究,表明99%以上所有的数据可视化结果表达都可以通过这四类图表的组合来实现。
在Tableau中,未经过更改时:
维度全部是蓝色且默认为“离散”状态,在上面一部分;
度量全部是绿色且默认为“连续”状态,在下面一部分。
2.3 Tableau可视化字典
3. Tableau可视化原理
使用Tableau将数据变成图表:
3.1 第一概念
对【度量】和【维度】进行拖拽操作,从而完成可视化图表的制作,是被称为Tableau第一概念,是最重要的知识。
(只会用智能显示不算掌握Tableau)
Tableau可拖拽操作的区域主要有以下3个:
(1)行、列功能区
列功能区中的字段:作为坐标轴中的横轴。
行功能区中的字段:作为坐标轴中的纵轴。
列、行功能区中的字段均可以是度量,也可以是维度;均可以是连续,也可以是离散。
但有的组合没有意义。需根据实际需要,将列/行、度量/维度、连续/离散进行搭配。度量值不管是被放到行功能区,还是被放到列功能区,都会自动被进行聚合。
(聚合方式一般是求和,可以根据实际需要修改聚合方式。)
列、行功能区中的字段可以通过转置交换。
(2)标记卡
用来切换度量的数据值对应的视觉映射类型。
调整绘图区中的图表类型(标记)、颜色、大小、标签(文本)等展示细节。
(3)筛选器
将指定变量作为筛选条件。
3.2 第二概念
维度会对度量值进行区分,增加度量值的信息密度(单个图表传达信息的多少)。
将维度放在以下位置都可以对度量进行区分,并且形成对应的效果:
列、行、颜色、标签、详细信息
3.3 第三概念
图表分为有轴图表和无轴图表(极坐标图表)
对于数轴的理解是Tableau在表和图之间切换的关键。
【表中的数据应该用什么样的图进行展示;
图需要进行怎样的修改才能让数据呈现地更清晰,让人一目了然。】
有轴图表向无轴图表的转化:
由柱状图转换成玫瑰图:
柱状图中度量的数值大小被映射成了柱体的不同高度;
转化成无轴的玫瑰图后,度量的数值大小被映射成了不同的半径大小。玫瑰图的起源:
[数据可视化] 南丁格尔玫瑰图——山茶花开时
在南丁格尔玫瑰图中:
①在外围,先将度量的数值大小映射成不同的半径大小,形成了多个扇形(外围每个扇形的角度仍是相同的);
②在每个扇形中,又进行了三种分类。对每一类,将度量的数值大小映射成了不同的长度
(所以每个扇形中的三类,靠近圆心的那一类仍为扇形,剩下的两类都变成了四角玫瑰花瓣的形状)。
Tableau中的无轴图主要有:树地图、饼图、气泡图、词云四种。
都是将度量放到大小上,维度放在颜色、标签、详细信息上,然后选择对应的图形标记:树地图——方形;
饼图——饼图;
气泡图——圆;
词云——文本;
(1)树地图:
常用来进行多变量的占比分析,相比于饼图会更加直观。
(2)饼图:
在上面由柱状图转换成的玫瑰图:度量的数值大小被映射成了不同的半径大小,产生了不同半径下的扇形面积差异;
而在饼图里,度量的数值大小被映射成了饼图中每个扇形的角度大小,从而产生了同一半径下的扇形面积差异。
一般情况下,都会使用不同颜色,标记饼图中的不同扇形。
但这是因为:
人类视觉对角度差异的感知,不如对面积的差异的感知;
对面积的差异的感知,又不如对颜色的差异的感知。
所以要清楚:饼图可视化的根本原理不在于扇形的面积,也不在于扇形的颜色,而在于扇形的角度。
使用不同的颜色,是为了突出不同的扇形面积,而扇形面积的不同,根本在于扇形的角度不同。
3.4 第四概念
在Tableau中,未经过更改时:
维度全部是蓝色且默认为“离散”状态,在上面一部分;
度量全部是绿色且默认为“连续”状态,在下面一部分。
在Tableau中,表中字段的数据类型、“维度/度量”类别、“离散/连续”字段状态(可通过颜色体现)等的修改:
(1)表中的维度字段:
①表中“字符串”类型的维度字段,右键可更改为“度量”类别,并能够选择多种度量的方式(最大值、最小值、计数、去重计数):
【“字符串”类型的维度字段,改为度量之后,生成的新字段的状态自动变为“连续”。】
但不可以单独修改字段的状态。
②表中“数字”类型的维度字段,右键可以更改类别为“度量”。
【“数字””类型的维度字段,改为度量之后,字段的状态由“离散”,自动变为“连续”。】
还可以单独将字段的状态从“离散”改为“连续”。(但所属的类别不会发生改变,更改之前、之后都还是维度。)
③表中“日期”类型的维度字段,右键可以更改状态为“连续”。
【“日期”类型的维度字段,将字段的状态从“离散”改为“连续”后,所属的类别不会发生改变,更改之前、之后都是维度。——即日期,只能是维度。】
(2)表中的度量字段:
①右键可单独修改为“维度”类别:
(由度量改为维度之后,字段的状态会自动变为“离散”。)
②字段状态为连续时,右键可单独将状态更改为“离散”。(反过来也可以)
【但所属的类别不会发生改变,更改之前、之后都是度量。】
3.5 区分方法
对表区域中列出的字段(原始字段和新生成的字段): 不管是“离散”还是“连续”,
维度始终在表字段的上面一部分。 度量始终在表字段的下面一部分。
对表中的原始字段以及生成的新字段: (包括 对表区域中列出的字段 和 行、列功能区中的字段)
不管是维度还是度量, “离散”状态始终为蓝色,“连续”状态始终为绿色。其中,离散状态的蓝色字段形成“标签”,连续状态的绿色字段形成 “刻度值” 或 “数轴” 。
而且只有离散状态的蓝色字段,才能形成“标签”,连续状态的绿色字段无法形成。
只有连续状态的绿色字段才能形成“数轴” 或“刻度值”,离散状态的蓝色字段无法形成。
【下图中是将 原始的离散(蓝色)的维度,放在“页面”中的列,作为坐标轴中的横轴。
将 原始的连续(绿色)的度量,放在“页面”中的行,作为坐标轴中的纵轴。】
4. 数据可视化原则
(1)区分用户
判断观众是谁,进而选择分析和展示角度。
(2)主次分明、详略得当
强调信息的方式有很多种,用恰当的方式去强调恰当的内容。
确定好顺序,决定优先使用哪一种视觉元素,传达信息。
(3)真实准确
刻度要从0开始: 如在制作柱状图/时需要注意保持图形长度的真实性。
如下两个柱状图,左边的图形以3000作为纵坐标轴起点,导致蓝色矩形长度变短,看上去蓝色矩形长度只是红色的1/4,扭曲了两个矩形的长度关系。这显然违背了图形图表追求真实准确的可视化表达本意。
需要特别提醒的是:
有些文章认为修改坐标轴是一种美化数据的手段,这是错误的理念。
(4)符合大众认知和审美习惯
可视化学科发展已经有很长的历史了,大众已经形成了基本的认知习惯。
如地理位置用地图、随时间变化用折线图都是基本认知。
(5)适度原则
颜色一般不要超过8种,不能过分强调,且搭配要合理。
【超过8种颜色几乎等于没有用颜色区分。】
排版、字体、大小、形状等都要合适。
避免使用3d效果,容易产生错觉。
(6)五秒原则
做的图5秒内其他人看懂了就是成功了,否则就还有优化空间。
(7)恰到好处的说明
很多时候都需要对图标做出恰当的说明,帮助人们更加直接地理解信息。
说明包括:标题、图例、标注、结论等【在Tableau中,通过右键数据添加注释。】
颜色代表什么要有图例说明。
(8)少即是多Less is More
(9)多到Tableau社区学习
酷炫的可视化案例:
Tableau Public——在线探索、创建和公开共享数据可视化项的免费平台。
5. BI仪表盘搭建
(1)BI仪表盘搭建原则
符合业务的阅读、思考、操作逻辑
(2)明确仪表盘主题
①观众是谁?他们对什么感兴趣?
②明确可以发挥的主题
课程数据可以发挥的主题有很多, 以下主题都可以单独制作一个看板:
每日营收情况
无效订单与配送距离之间的关系
用户下单时间分布
用户客单价变化
cpc投放效果
视频中,以“每日营收情况 ”为主题,搭建看板。
(3)仪表盘主题拆解
①怎样的数据能表达清楚你想说的主题?
②这个主题涉及到哪些数据?
③数据的重要程度是否相同?
④最适合数据的图表是哪种?
先确定初版的图表,后续可能进行图表的添加、减少或修改:
6. 开发设计工作图表
整个看板,只放一个“日期”筛选器,其它的均为联动筛选器。
在所有图表中,按住F可以拖拽地图;按住A可以选择区域。
6.1 经营情况总览:
使用突出显示的文字,展示整体的经营数据。
6.2 经营数据详情:表格
可以在表中的“日期”字段上加一个联动筛选器。
当选中某一日期后,整个看板中其它图表,也都只显示该日期的数据。
6.3 每日营收数据:多轴折线图
展示:GMV、商家实收、平台补贴,三种数据的情况。
6.4 每日流量数据:双轴组合图
展示:曝光人数
使用进店人数、下单人数,计算并展示:进店转化率、下单转化率(成交率),用两种转化率反映流量的承接能力。
添加联动筛选器。选择某一时间段的数据,整个看板中其它图表,也都只显示该时间段的数据。
6.5 新老客占比:环形图
可以将环形图中的每个部分,作为联动筛选器。
当选中某一种客户类别后,整个看板中其它图表,也都只显示该客户类别下的数据。
对于一个线上外卖品牌,新老客的占比直接决定了该品牌当前的增长模式。
新客占比高:说明处于高速拉新的增长模式下;
老客占比高:说明处于老客复购的模式下,即已经没有吸引新流量的能力了。
90天内没有下过单的,为新客。否则为老客。
对比:
“标记”功能区中的,“工具提示”字段在饼图中的作用:
不会改变整个图表的视觉元素,同时又能增加信息。
6.6 平台占比:环形图
可以作为联动筛选器。当选中某一个平台后,整个看板中其它图表,也都只显示该平台的数据。
6.7 门店占比:环形图
可以作为联动筛选器。当选中某一个门店后,整个看板中其它图表,也都只显示该门店的数据。
6.8 投放情况:散点图
根据散点图添加趋势线,比较多个品牌投放ROI的大小。
6.9 订单分布:面积图
展示每天每个小时,产生的订单数量,用来观察每天订单分布的变化趋势。
将“下单日期时间” 或 “下单时间” 放到“标记”功能区的“颜色”选项卡上后,再将其改为“小时”且离散的类型。
6.10 配送分布:地图
主要是为了查看异常下单,及异常配送的情况。
调整时,主要是采用主键:
地图上某个位置与配送出发点的直线距离可能是最短的,但实际中的距离,由于道路规划等问题,并不总是最近的。
所以:①尽量使得每个散点只对应Orders表中的一个订单;
②保证散点图大致的趋势是从内到外,颜色逐渐变深的。
但不必让每个点都符合 “在地图上 与配送出发点(距离为0处)的直线距离越短,在散点图中的颜色也越浅” 的规则。
————不可能每个点都做到这样,才是符合现实情况的。
正式创建地图:
(或者在“距离”字段上,创建分组。)
无论哪种创建方式,创建后的“距离分组”字段,必须为维度,必须为离散状态。然后放在“颜色”选项卡上。
7. 构思仪表盘布局
(1)纵向布局:推荐,从上到下按逻辑展开
(2)横向布局:有一到两个主图,其他补充信息
(3)没有很好的想法,可以多去社区找灵感
Tableau Public——在线探索、创建和公开共享数据可视化项的免费平台。
8. 加“亿点点” 细节
(1)联动筛选
按ESC键可取消筛选。
(2)边框
(3)简化
筛选器、网格线
(4)填充
使用空白调整布局
(5)字体
标题尽量统一为微软雅黑
(6)配色
①修改工作表颜色
②修改仪表盘底色
③配色方案
- 取logo颜色
- 纯深色or纯暖色
- 参考设计网站
设计师必存的101种配色方案——SJ-QUAN 设长
Pinterest
dribbble
站酷
9. 最终成果
10. 看板发布
请确保工作表或仪表板选项卡处于活动状态(而非“数据源”选项卡)。
①输入自己的服务器网址,发布到自己的服务器。
如有必要,请登录到服务器。
【Tableau Server 是一项付费服务。】
②输入 https://online.tableau.com,就会发布到Tableau Cloud,也是付费的。
③输入https://public.tableau.com,就会发布到Tableau Public.
也要登录Tableau Public的账号,会公开自己的看板,但是是免费的。
会自动跳转到浏览器中打开链接。
Flerken Jones的外卖行业每日营业情况数据监控 —— Flerken Jones
或者选择Tableau Public,“保存到Tableau Public”,登录账号,发布。
同样会自动跳转到浏览器中打开链接。