完成与数据源的连接后,需要对来自不同数据源、多个数据表的数据进行融合、联接等操作,同时还要选择适合的数据整合方式,本节内容包括:
- 数据联接
- 数据合并
- 数据加载
数据联接
联接字段
当需要从多个数据表中获取数据,则要用到数据联接操作。为了操作直观、简单,继续使用自制的数据集demo,包括“书籍”和“作者”两张数据表,其中,“书籍”数据表包含书名、作者、作者ID、出版社4个字段,“作者” 数据表包含作者、作者ID、国籍3个字段”。
图:数据集demo数据表
如果打算分析书名、作者以及作者国籍的有关情况,就要将两张表连接在一起,这两张表有两个相同字段,分别是“作者”和“作者ID”,一般在进行数据连接时,如果既有名称又有ID,通常会选择与ID有关的字段作为连接字段,因此,上面两张表就通过“作者ID”进行联接。
联接方式
目前,tableau中的数据联接方式分为四种,分别是内联接、左联接、右联接和完全外部联接。通常情况,tableau会自动判断两张表的同类字段并进行关联,如果关联不正确,可以通过手动方式进行关联。
图:tableau中的四种联接方式
- 内联接
使用内联接合并数据表时,生成的新表仅保留两张数据表中具有相同关键字段的行。
对上面数据集demo的两张数据表使用内连接,生成的新表将两张数据表中,具有相同“作者ID”的行合并在一起,其余行则