gp 导出数据字典_Greenplum企业应用实战(笔记):第三章 Greenplum 实战

第三章 Greenplum 实战

本章叫介绍两个完整的例子:数据仓库拉链记历史和网页浏览日志分析。在这两个例子中,会结合 Greenplum 的一些特性加以描述,之后会介绍使用 Greenplum

中要注意的一些特性,以及这些特性对性能的影响。

[TOC]

3.1 历史拉链表

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。优于需要反映历史变化,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

历史拉链表是一种数据模型,主要是针对数据仓库设计中标存储数据的方式而定义的,就是记录一个事务从开始一直到当前状态的所有变化的信息。

拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是出了缓慢变化数据的一种常见方式。

3.1.1 应用场景描述

拉链算法存储:每日只向历史表中添加新增和变化的数据量

3.1.2 原理及步骤

在拉链表中,每一条数据都有一个生效日期(dw_beg_date)和失效日期(dw_end_date)

1

2

3

如果要查询最新的数据,那么只要查询失效时间为 3000-12-31 的数据即可,如果要查询 12 月 1 号的历史数据,则筛选生效时间

2011-12-01 并且失效时间 > 2011-12-01 的数据即可。如果查询的是 12 月 2 号的数据,那么筛选条件则是生效时间

2-11-12-02 并且失效时间 > 2011-12-02.

在gp中,则可以利用分区表按照 dw_end_date 保存时间,这样在查询的时候可以利用gp的分区裁剪,从而减少IO消耗。下面讲解拉链表刷新的步骤,连线代表数据流向,线上的编号就是步骤编号:

4

首先介绍每个表的用途:

member_fatdt0 :表示 member 的事实表,其中 P30001231 保存的是最新数据,每个分区保留的都是历史已失效的数据

member_delta:当天的数据库变更数据,action 字段表示该数据为新增(I),更新(U)、删除(D)

member_tmp0:刷新过程中的临时表,这个表有两个分区,分别记录历史数据,即当天失效数据,另一个分区例句的是当前数据

member_tmp1:同样是刷新过程中的临时表,主要是在交换分区的时候使用

刷新过程简单来说,就是讲前一天的全量数据(分区 P30001231)与当前的增量数据进行关联,并对不同的变更类型(action)进行相应的处理,最终生成最新数据,以及当天发生变更的历史数据。

3.1.3 表结构

1. 拉链表(member_fatdt0)结构

member——fatdt0 使用 member_id 作为分部件,使数据尽量打散在每个机器上,通过 with(appendonly=true,compresslevel=5) 指定该表为压缩表,可以减少 IO 操作,将 dw_end_date 作为分区字段。建表语句如下:

5

2.增量表(member_delta)结构

建表语句如下:

6

3.临时表0(member_tmp0)结构

dtype 为分区字段,H 表示历史数据,C 表示当前数据,建表语句如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值