--------【数据仓库】
文章平均质量分 56
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
星型模式
一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。 事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需求,基础事实表中需要记载的是客人最低粒度的消费事实。即用何种促销手段使某位客人在某个时间进行了何种形原创 2016-01-03 23:59:56 · 2449 阅读 · 0 评论 -
大数据治理系统框架Apache Atlas实践
大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结Apache Atlas简介•面对海量且持续增加的各式各样的数据对象,原创 2017-09-21 14:54:12 · 19957 阅读 · 6 评论 -
大数据下的企业数据仓库建设
避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题减少重复开发,开发通用的中间层数据,减少很多重复的计算那么如何做到上述要点呢? 通常的办法是根据业务建立一套合理的数据分层模型数据仓库的价值:高 效 的 数 据 组 织 形 式 , 方 便 维 护 面 向 主 题 的 特 性 决 定 了 大 数 据原创 2017-09-05 22:34:18 · 5964 阅读 · 0 评论 -
统计中纬度与指标的区别
在统计分析系统中,维度:是分析的角度。如流量来源(广告、搜索引擎等),上网方式等 。指标:是用数值来量化分析维度。是衡量数据的 指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以计算指标“人口”,其值为具体城市的居民总数。又例如,衡量某个渠道来源的流量所浏览的网页数(浏览量即pv),流量在网站上的平均停留时间等此外:指标是事实指标是维度的一个点原创 2015-12-28 00:01:51 · 5590 阅读 · 0 评论 -
美团数据仓库的演进
数据仓库转载 2015-10-30 17:14:50 · 3022 阅读 · 1 评论 -
数据仓库3级范式(3NF)基础
一、引言 最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。二、3NF(1)1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1原创 2015-11-23 17:48:44 · 4536 阅读 · 0 评论 -
分布式数据仓库设计
做大做强事实表,做小做弱维表;分布式模式-维度建模新原则 (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值; (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。原创 2015-12-15 08:11:51 · 1436 阅读 · 0 评论 -
构建企业级数据仓库五步法
数据仓库建模与ETL实践技巧Posted on 2008-08-01 10:07 xuzhengzhu 阅读(295) 在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp)其中,数据仓库(DW)起到了数据大集中的作用。通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小转载 2015-12-17 08:24:04 · 2245 阅读 · 0 评论 -
多维数据模型
一、概述 多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。二、星型模式(star schema) 星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:转载 2015-12-15 08:10:29 · 2286 阅读 · 0 评论 -
数据仓库建设步骤
数据仓库建设步骤Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏1.系统分析,确定主题确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是转载 2015-12-17 08:21:22 · 1557 阅读 · 0 评论 -
数据仓库建模:定义事实表的粒度
数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下:1.客户的零售单据上的每个条目。2.保险单上的每个交易。定义好事实表的粒度有很大的用处。第一个用处就转载 2015-12-17 08:19:38 · 4247 阅读 · 0 评论 -
数据集市
1. 什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面转载 2015-12-21 01:20:43 · 3534 阅读 · 0 评论 -
支付宝数据建模介绍
支付宝数据建模介绍转载 2015-12-21 00:42:32 · 2027 阅读 · 0 评论 -
Hive性能优化(全面)
Hive性能优化(全面)2018-02-02 Hadoop大数据应用1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不转载 2018-02-05 12:06:05 · 1053 阅读 · 0 评论