博客专栏  >  数据库   >  更好的Hadoop数据仓库解决方案——HAWQ实战演练

更好的Hadoop数据仓库解决方案——HAWQ实战演练

通过构建一个小而完整的数据仓库示例,深入理解如何以HAWQ替代传统数仓。包括使用Sqoop、HAWQ、Falcon处理ETL过程,以及实现各种维度表技术、事实表技术、OLAP、交互式查询及图形化表示等。

关注
126 已关注
19篇博文
  • HAWQ取代传统数仓实践(一)——为什么选择HAWQ

    为了跟上所谓“大数据”技术的脚步,从两年前开始着手实践各种SQL-on-Hadoop技术,从最初的Hive,到SparkSQL,再到Impala,进行了一系列ETL、CDC、多维数据仓库、OLAP的实...

    2017-05-10 16:24
    6467
  • HAWQ取代传统数仓实践(二)——搭建示例模型(MySQL、HAWQ)

    一、业务场景        本系列实验将应用HAWQ数据库,为一个销售订单系统建立数据仓库。本篇说明示例的业务场景、数据仓库架构、实验环境、源和目标库的建立过程、测试数据和日期维度的生成。后面陆续进行...

    2017-05-11 15:31
    4586
  • HAWQ取代传统数仓实践(三)——初始ETL(Sqoop、HAWQ)

    一、用sqoop用户建立初始抽取脚本        本示例要用Sqoop将MySQL的数据抽取到HDFS上的指定目录,然后利用HAWQ外部表功能将HDFS数据文件装载到内部表中。表1汇总了示例中维度表...

    2017-05-12 11:00
    2328
  • HAWQ取代传统数仓实践(四)——定期ETL(Sqoop、HAWQ)

    一、变化数据捕获(CDC)        初始装载只在数据仓库开始使用前执行一次,然而,必须要周期性地执行装载源数据过程。与初始装载不同,定期装载一般都是增量的,并且需要捕获并且记录数据的变化历史。1...

    2017-05-12 16:03
    2359
  • HAWQ取代传统数仓实践(五)——自动调度工作流(Oozie、Falcon)

    一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基...

    2017-05-18 17:35
    3666
  • HAWQ取代传统数仓实践(六)——增加列

    业务的扩展或变化是不可避免的,尤其像互联网行业,需求变更已经成为常态,唯一不变的就是变化本身,其中最常碰到的扩展是给一个已经存在的表曾加列。        以销售订单为例,假设因为业务需要,在操作型源...

    2017-05-23 17:18
    2606
  • HAWQ取代传统数仓实践(七)——维度表技术之维度子集

    有些需求不需要最细节的数据。例如更想要某个月的销售汇总,而不是某天的数据。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。此时事实数据需要关联到特定的维度,这些特定维度包含在从细节维度...

    2017-05-24 14:21
    2924
  • HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度

    单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具有不同的含义。这...

    2017-05-25 15:47
    2875
  • HAWQ取代传统数仓实践(九)——维度表技术之退化维度

    退化维度技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。        有时,维度表中除了业务主键外没有其它内容。例如,在本销售订单示例中,订单维度表除了订...

    2017-05-26 13:29
    1809
  • HAWQ取代传统数仓实践(十)——维度表技术之杂项维度

    一、什么是杂项维度        简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。事务型商业过程通常产生一系列混杂的、低基数的标志位或状态信息。与其为每个标志或属性定义不同的维度,不如建立单...

    2017-05-27 13:59
    2118
  • HAWQ取代传统数仓实践(十一)——维度表技术之维度合并

    有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性。例如,在销售订单示例中,随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。客户维度的客户地址相关信息...

    2017-05-31 15:03
    2311
  • HAWQ取代传统数仓实践(十二)——维度表技术之分段维度

    一、分段维度简介        在客户维度中,最具有分析价值的属性就是各种分类,这些属性的变化范围比较大。对某个个体客户来说,可能的分类属性包括:性别、年龄、民族、职业、收入和状态,例如,新客户、活跃...

    2017-06-01 11:42
    3025
  • HAWQ取代传统数仓实践(十三)——事实表技术之周期快照

    一、周期快照简介        周期快照事实表中的每行汇总了发生在某一标准周期,如一天、一周或一月的多个度量。其粒度是周期性的时间段,而不是单个事务。周期快照事实表通常包含许多数据的总计,因为任何与事...

    2017-06-02 15:32
    2173
  • HAWQ取代传统数仓实践(十四)——事实表技术之累积快照

    一、累积快照简介        累积快照事实表用于定义业务过程开始、结束以及期间的可区分的里程碑事件。通常在此类事实表中针对过程中的关键步骤都包含日期外键,并包含每个步骤的度量,这些度量的产生一般都会...

    2017-06-05 14:52
    2140
  • HAWQ取代传统数仓实践(十五)——事实表技术之无事实的事实表

    一、无事实事实表简介        在多维数据仓库建模中,有一种事实表叫做“无事实的事实表”。普通事实表中,通常会保存若干维度外键和多个数字型度量,度量是事实表的关键所在。然而在无事实的事实表中没有这...

    2017-06-06 11:02
    2869
  • HAWQ取代传统数仓实践(十六)——事实表技术之迟到的事实

    一、迟到的事实简介        数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时,就能够从...

    2017-06-08 17:00
    2276
  • HAWQ取代传统数仓实践(十七)——事实表技术之累积度量

    累积度量指的是聚合从序列内第一个元素到当前元素的数据,例如统计从每年的一月到当前月份的累积销售额。本篇说明如何在销售订单示例中实现累积月销售数量和金额,并对数据仓库模式、初始装载、定期装载做相应地修改...

    2017-06-09 18:38
    1702
  • HAWQ取代传统数仓实践(十八)——层次维度

    一、层次维度简介        大多数维度都具有一个或多个层次。例如,示例数据仓库中的日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次,因为...

    2017-06-12 17:34
    1684
  • HAWQ取代传统数仓实践(十九)——OLAP

    一、OLAP简介1. 概念        OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出...

    2017-06-14 13:37
    2684
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部