我们根据一道考试试题去看:
When creating a union between tables, what will happen if the field names do not match?
当在表之间创建一个新建并集,如果列名不匹配的话会发生什么?
a. Tableau will return an error message, explaining that you must modify the tables so that all tables used in the union have the same field names.
Tableau会返回错误消息,解释是你必须修改表格以至于表格在新建并集过程中有相同的字段名。
b. Tableau will automatically merge the fields, combining fields with similar field names.
Tableau会自动合并字段,合并字段名相似的字段。
c. Fields in the union that do not have matching field names will contain null values.
在新建并集中没有能够匹配的字段名会展示空值。
d. Fields with non-matching field names will be dropped, so that the union will contain only those fields with matching field names
没匹配的字段名会被丢弃,因而新建并集仅仅展示那些匹配出相同字段名的字段。
正确答案是c. 新建并集和sql 外连接比较相似,e.g.有的字段名称表一有表二没有的话,就显示为空值。
重点来了,我们该怎么理解Tableau 里新建并集呢?
-
首先先来个定义:在所有数据合并方法内,“数据并集”最容易理解,它用于数据结构完全一致的多组数据合并。结构完全相同指字段标题名称及数据类型一致。
-
最常见多用于本地文件的处理,比如同一个Excel 文件下的多个工作表、多个Excel文件下的多个工作表,或者多个.csv、.txt文件等。
-
作用:可以通过将值(行)从一个表附加到另一个表来合并数据以组合两个或多个表。
-
条件:要合并 Tableau 数据源中的数据,这些表必须来自同一连接数据源。
-
匹配方式1 union tables manually:
为获得最佳结果,您使用联合组合的表必须具有相同的结构。
即每张表必须有相同数量的字段,并且相关字段必须具有匹配的字段名称和数据类型。
1.打开Desktop,从左侧的数据连接面板连接本地的数据文件;
2.可双击左侧数据底部的“新建并集”,或者在已有单表连接处右击小三角图形,点击“转化为并集"。 -
匹配方式2 wildcard search(自动通配符匹配):
通配符匹配关键是使用:"*"+关键词 索引出相关工作表(sheet)或工作簿(csv/xlsx)
比如 " * " 代表所有文件、 " *月 " 代表结尾为月的工作簿/表、 "2019 * " 代表开头为2019的工作簿/表;
合并后系统会自动生成两个辅助字段,“FilePaths”(文件路径)和“Path”(数据源路径),用来记录合并的文件来源和名称;用右键点击“Path"字段,选择”描述“命令,可查看并集中包括的数据集,从而确认并集的正确性。 -
异常数据处理:
-
在并集中合并不匹配的字段列 (Merge mismatched fields in the union):
如果新建并集后因字段名称等缘故有不匹配的2列字段展示,如图:
因为有一个表的字段名称缩写(CUST),本质字段含义是CUSTOMER,按住CTRL选中2列,选择合并不匹配的字段即可。
1.数据并集主要用于Excel等本地环境中,极少用于数据库环境。
2.虽然未来使用Prep Builder 做数据并集会更只管、更简单,但除非必要,不要把数据整理和可视化分析分开,使用Desktop同步完成数据并集和可视化有助于保持思维的连贯性。