博客专栏  >  数据库   >  基于hadoop生态圈的数据仓库实践

基于hadoop生态圈的数据仓库实践

在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库。将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。

关注
195 已关注
25篇博文
  • 基于hadoop生态圈的数据仓库实践 —— 进阶技术(十七)

    十七、分段维度        本节说明分段维度的实现技术。分段维度包含连续值的分段。例如,年度销售订单分段维度可能包含有叫做“低”、“中”、“高”的三档;各档定义分别为0.01到15000、15000...

    2016-08-11 17:01
    3436
  • 基于hadoop生态圈的数据仓库实践 —— 进阶技术(十六)

    十六、累积的度量        本篇说明如何实现累积月底金额,并对数据仓库模式和初始装载、定期装载脚本做相应地修改。累积度量是半可加的,而且它的初始装载比前面做的要复杂的多。        可加、半可...

    2016-08-10 18:09
    2765
  • 基于hadoop生态圈的数据仓库实践 —— 进阶技术(十五)

    十五、维度合并        随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。例如,客户维度的客户地址相关信息、送货地址相关信息和工厂维度里都有邮编、城市和州。本节说明如何把三个维...

    2016-08-09 18:21
    4962
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十四)

    十四、迟到的事实        装载日期在生效日期后的事实就是迟到的事实。晚于订单日期进入源数据的销售订单可以看做是一个迟到事实的例子。销售订单被装载进其事实表时,装载的日期晚于销售订单的订单日期,因...

    2016-08-08 18:12
    3206
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十三)

    十三、无事实的事实表        本节讨论一种技术,用来处理源数据中没有度量的需求。例如,产品源数据不包含产品数量信息,如果系统需要得到产品的数量,很显然不能简单地从数据仓库中直接得到。这时就要用到...

    2016-08-05 15:31
    2210
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十二)

    十二、间接数据源        本节讨论如何处理间接数据源。间接数据源与维度表具有不同的粒度,因此不能直接装载进数据仓库。在这里通过修改进阶技术(八)——“多路径和参差不齐的层次”里的促销源数据说明怎...

    2016-08-04 17:23
    3468
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一)

    十一、多重星型模式        从“进阶技术”开始,已经通过增加列和表扩展了数据仓库,在进阶技术(五) “快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数...

    2016-08-04 14:26
    1910
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十)

    十、杂项维度        本节讨论杂项维度。简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单,它可能有很多离散数据(yes-no这种类型的值),如verification_in...

    2016-08-01 16:16
    4336
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(九)

    九、退化维度        本节讨论一种称为退化维度的技术。该技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退...

    2016-08-01 13:12
    3533
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(八)

    八、多路径和参差不齐的层次        本节讨论多路径层次,它是对单路径层次的扩展。上一节里数据仓库的月维度只有一条层次路径,即年-季度-月这条路径。在本节中加一个新的级别——促销期,并且加一个新的...

    2016-07-29 13:16
    2591
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(七)

    七、递归        数据仓库中的关联实体经常表现为一种“父—子”关系。在这种类型的关系中,一个父亲可能有多个孩子,而一个孩子只能属于一个父亲。例如,一个人只能被分配到一个部门,而一个部门可能被分配...

    2016-07-28 14:31
    3578
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(六)

    六、维度层次        大多数维度都具有一个或多个层次。例如,日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列来表示。日期维度是一个单路径层次,因为除了年-季度-月-...

    2016-07-25 13:51
    3038
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(五)

    五、快照        前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。        有些用户,尤其是管理者,经常要看某个特定时间点的数据。也就是说,他们需要数据的快照。周期快照和累积快...

    2016-07-22 11:21
    3945
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(四)

    四、角色扮演维度        当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。        本节将说明两类角...

    2016-07-18 17:32
    9437
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(三)

    三、维度子集        有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中,所以叫...

    2016-07-18 13:21
    7889
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(二)

    二、按需装载        前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型,按需装载。所谓“按需装载”指的是,在正常调度之外,当源数据有效或者数据仓库需要时进行装载。例如,促销销售...

    2016-07-14 16:11
    4117
  • 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(一)

    一、增加列         数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本节说明如何在客户维度表和销售订单事实表上添加列,并在新列上应用SCD2,以及对定时装载脚本所做的修改。假设需...

    2016-07-13 18:08
    8932
  • 基于Hadoop生态圈的数据仓库实践 —— ETL(三)

    三、使用Oozie定期自动执行ETL1. Oozie简介(1)Oozie是什么        Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成...

    2016-07-11 15:05
    13870
  • 基于Hadoop生态圈的数据仓库实践 —— ETL(二)

    二、使用Hive转换、装载数据1. Hive简介(1)Hive是什么        Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特...

    2016-07-06 11:46
    9304
  • 基于Hadoop生态圈的数据仓库实践 —— ETL(一)

    一、使用Sqoop抽取数据 1. Sqoop简介         Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Ap...

    2016-07-01 22:54
    12037
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部