数据仓库
jiedaodezhuti
目前工作主要涉及大数据平台,数据治理方面的工作;
展开
-
阿里云数仓总架构师:企业大数据平台仓库架构建设思路
随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库.总体思路随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?我认为应该从稳定、可信、丰富转载 2020-07-10 13:57:12 · 322 阅读 · 0 评论 -
数据仓库书籍推荐
数据仓库应具备的能力(1)SQL(2)建模理论(3)业务知识(4)大数据组件(5)数据治理、数据分析、数据挖掘能力SQL这是数据仓库最基本的技能,工作中60%的时间都需要写SQL,由于天天写SQL,我们通常自嘲为SQL Boy,SQL一定要写的利索,毕竟将来大部分时间都是和这个打交道。当我们学习了SQL,后面我们遇到的Hive、Spark Stream、Flink Stream都是一样的东西,全是写SQL,不要怕!!建模理论说到数据仓库的建模理论,不得不提两位大神Bill Inmon、Ki转载 2020-06-24 09:25:20 · 894 阅读 · 0 评论 -
数据仓库相关资料索引
https://www.cnblogs.com/end/archive/2011/10/11/2207356.html原创 2020-06-22 14:44:00 · 153 阅读 · 0 评论 -
浅谈数据仓库和大数据
前言数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术,数据仓库以数据库为基础,但是他在需求、客户、体系结构与运行机制等方面与数据库存在重大的不同,Kimball说:“我们花了二十年的时间往数据库中加入数据,现在该是拿出来使用的时候了。” —摘自数据仓库工具箱:维度建模(第二版)1.数据仓库理解根据笔者自己的理解,数据仓库是一个抽象的概念,而实现的载体则是我们常见的各种数据库表。比如传统行业中用到的Oracle、Teradata(简称TD)、GreenPlum(简称GP转载 2020-06-22 14:40:25 · 747 阅读 · 0 评论 -
分布式数据仓库事实表设计思考
一、前言 最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造。设计出一套真正适合分布式数据仓库的数据存储模型。二、事实表设计基础事实表记录发生在现实世界中的操作型事件,其所产生的可度数值。事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响。事实表中,除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也可以包含退化的维度键和日期/时间戳。三、传统模式 以FS-LDM数据存储模型Even转载 2020-06-22 14:33:53 · 237 阅读 · 0 评论 -
数据仓库的多维数据模型
多维数据模型的定义和作用多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)。当然,通过多维数据模型的数据展示、查询和获取就是其作用的展现,但其真的作用的实现在于,通过数据仓库可以根据不同的数据需求建立起各类多维模型,并组成数据集市开放给不同的用户群体使用,也就是根据需求定制的各类数据商品摆放在数据集市中供不同的数据消费者进行采购。多维数据模型实例 在看实例前转载 2020-06-22 14:28:24 · 613 阅读 · 0 评论 -
数据仓库中的几种数据模型
数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型.星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。雪花模型也是维度建模中的一种选择。雪花模型的维度表可以拥有其他维度表的,虽然这种模型相比星型模型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要转载 2020-06-22 14:18:50 · 820 阅读 · 0 评论 -
数据仓库的模型设计
数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。一般划分为8个主题域:客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域?划分主题域,是根据业务的应用和需要来划分的,是用来达到数据与业务紧耦合的目的。2,逻辑模型对概念模型中的主题进行细化,定义实体与实体之间的关系,和实体的属性。即定义具体表的作用,表与表的约束,表的字段。形成E转载 2020-06-22 14:12:06 · 552 阅读 · 0 评论 -
大数据之数据仓库
摘要对于大数据而言,数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle,MySql上。到大数据时代,基于hadoop生态的大数据架构,数仓基本上都是基于hive的数仓。对于很多大数据开发者而言,特别是早期,很多开发者认为hive数仓就是和业务相关,隐射Hdfs数据文件的一张张表。针对于hive数仓而言,最终看到的确实是一张纸表,但这些表是如何根据业务抽象出来的、表之间的关系、表如何更好的服务应用这些问题是数仓建模、数仓技术架构的核心。一个好的数仓技术架构和数仓建模。可以减少开发的难.转载 2020-06-22 13:33:34 · 583 阅读 · 0 评论 -
阿里数据中台维度建模规范、维度模型设计及模型实施方法论
阿里中台的概念,可以说是近些年来的颇为火爆的概念。从十余年前的阿里在内部完成这一过程,并提出了“中台”概念;到后面中台概念逐步被外部接受并在2019年爆火兴起。数据中台爆火背后,既有传统企业转型焦虑的市场东风,又有阿里中台战略示范效应的推波助澜。下图为阿里中台架构(图片来自网络),其内置“大中台、小前台”的战略,其中包含了业务中台和数据中台的双中台配置。从本质上来说,中台概念更多是一种方法论。它来告诉用户如何构建数据化服务体系,包括从数据集成、数据建模、数据开发、数据共享到数据质量、数据治理等。用户可以转载 2020-06-17 16:13:26 · 1810 阅读 · 0 评论