第三章 Greenplum 实战
本章叫介绍两个完整的例子:数据仓库拉链记历史和网页浏览日志分析。在这两个例子中,会结合 Greenplum 的一些特性加以描述,之后会介绍使用 Greenplum
中要注意的一些特性,以及这些特性对性能的影响。
[TOC]
3.1 历史拉链表
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。优于需要反映历史变化,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
历史拉链表是一种数据模型,主要是针对数据仓库设计中标存储数据的方式而定义的,就是记录一个事务从开始一直到当前状态的所有变化的信息。
拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是出了缓慢变化数据的一种常见方式。
3.1.1 应用场景描述
拉链算法存储:每日只向历史表中添加新增和变化的数据量
3.1.2 原理及步骤
在拉链表中,每一条数据都有一个生效日期(dw_beg_date)和失效日期(dw_end_date)
1
2
3
如果要查询最新的数据,那么只要查询失效时间为 3000-12-31 的数据即可,如果要查询 12 月 1 号的历史数据,则筛选生效时间
2011-12-01 并且失效时间 > 2011-12-01 的数据即可。如果查询的是 12 月 2 号的数据,那么筛选条件则是生效时间
2-11-12-02 并且失效时间 > 2011-12-02.
在gp中,则可以利用分区表按照 dw_end_date 保存时间,这样在查询的时候可以利用gp的分区裁剪,从而减少IO消耗。下面讲解拉链表刷新的步骤,连线代表数据流向,线上的编号就是步骤编号:
4
首先介绍每个表的用途:
member_fatdt0 :表示 member 的事实表,其中 P30001231 保存的是最新数据,每个分区保留的都是历史已失效的数据
member_delta:当天的数据库变更数据,action 字段表示该数据为新增(I),更新(U)、删除(D)
member_tmp0:刷新过程中的临时表,这个表有两个分区,分别记录历史数据,即当天失效数据,另一个分区例句的是当前数据
member_tmp1:同样是刷新过程中的临时表,主要是在交换分区的时候使用
刷新过程简单来说,就是讲前一天的全量数据(分区 P30001231)与当前的增量数据进行关联,并对不同的变更类型(action)进行相应的处理,最终生成最新数据,以及当天发生变更的历史数据。
3.1.3 表结构
1. 拉链表(member_fatdt0)结构
member——fatdt0 使用 member_id 作为分部件,使数据尽量打散在每个机器上,通过 with(appendonly=true,compresslevel=5) 指定该表为压缩表,可以减少 IO 操作,将 dw_end_date 作为分区字段。建表语句如下:
5
2.增量表(member_delta)结构
建表语句如下:
6
3.临时表0(member_tmp0)结构
dtype 为分区字段,H 表示历史数据,C 表示当前数据,建表语句如下: