数据仓库~大数据
文章平均质量分 65
wer0735
这个作者很懒,什么都没留下…
展开
-
大数据数据仓库-简介
人类正从IT时代走向DT时代,数据变得越来越多,其重要性不言而喻,管理大量数据的数据仓库也显得更重要。接下的日子里,本人会根据自己所学的知识和实战经验,编写多年心得与大家一起学习探头。原创 2017-09-23 21:50:56 · 1708 阅读 · 0 评论 -
数据仓库所思
1 设计表的时候,需要考虑到存储能量和数据沉淀,减少计算。比如说,计算近3个月的指标,可以通过上一次的近3个月数、上一日的数和当前日的数想计算得出,而不需要对三个月的数做sum操作。 当日的近3月累计数 = 上日的近3月累计数 + 当日的近1日的增量数 - 上日的近1日的增量数 以此类推,近3日、近7日、近一月等等都可以通过这个方式计算,这样节省大量计算资源。2 关于如何构建数据仓库的构...原创 2018-04-16 17:58:20 · 325 阅读 · 0 评论 -
互联网数据仓库数据模型
互联网数据仓库的现实状况模型方法选择在我们的数据仓库中,除了各个主题域下的维度模型,还存在一些宽表模型。所谓宽表模型,是基于维度模型的扩展,采用退化维度的方式,将不同维度的度量放入数据表的不同的列中;它更易于理解,具有更高的查询效率;易于模型扩展;事实证明,在海量数据环境下,对业务查询的支撑,宽表在性能和易用性方面,都达到了比较理想的效果。...原创 2018-03-28 14:40:02 · 1940 阅读 · 0 评论 -
数据仓库中历史拉链表的更新方法
转载:http://lxw1234.com/archives/2015/08/473.htm本文中假设:数据仓库中订单历史表的刷新频率为一天,当天更新前一天的增量数据;如果一个订单在一天内有多次状态变化,则只会记录最后一个状态的历史;订单状态包括三个:创建、支付、完成;创建时间和修改时间只取到天,如果源订单表中没有状态修改时间,那么抽取增量就比较麻烦,需要有个机制来确保能抽取到每天的增量数据;本文...转载 2018-03-28 14:00:16 · 1779 阅读 · 0 评论 -
数据仓库之 ETL
转载:http://lxw1234.com/archives/2015/04/31.htmETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。 大多数据仓库的数据架构可以概括为:数据源–>ODS(操作型数据存储)–>DW–>DM(data mart)ETL贯穿其各个环节。 一、数据抽取:可以理解为是把源数据的数据抽取...转载 2018-03-27 17:05:35 · 425 阅读 · 0 评论 -
饿了么大数据平台建设
【导语】随着接入的需求方越来越多样化,对大数据的数据使用、数据存储与计算的需求也越来越多样化,同时业务飞速发展,集群的规模也急速扩大。如何在这样的场景下通过大数据平台,稳定支撑住业务的发展是一个不小的挑战。本文分享主要平台工具链,技术、选型及架构设计上的一点经验。大数据平台现状饿了么的大数据平台团队成立于2015年5月份左右,在16年4月份,Hadoop集群规模还只在100+节点数,而转载 2017-11-28 20:47:20 · 1295 阅读 · 0 评论 -
技术篇~第二章 离线数据开发
原创 2017-10-08 23:36:56 · 373 阅读 · 0 评论 -
技术篇~第一章 数据同步
1 数据同步基础2 阿里数据仓库的同步方式阿里的批量数据同步产品:实时同步产品:3 数据同步遇到的问题和解决方案原创 2017-10-08 23:27:35 · 460 阅读 · 0 评论 -
理论篇~第七章 数据质量
随着IT向DT时代的转变,数据重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极重要的角色。而对于日益重视的数据,如何保障其质量也是业界普遍关注的话题。1 数据质量保障原则2 数据质量方法概述 阿里的业务复杂,种类繁多的产品每天产生数以亿计的数据,每天的数据量在PB级以上,而数据消费端的应用又层出不穷,各类数据产品原创 2017-10-08 23:02:57 · 512 阅读 · 0 评论 -
理论篇~第六章 元数据
1 元数据概述1.1 元数据定义阿里常见的技术元数据:1 分布式计算系统存储元数据,如MaxCompute表、列、分区等信息。记录了表的表名、分区信息、责任人信息、文件大小、表类型、生命周期,以及列的字段名、字段类型、字段备注、是否是分区字段等系统。2 分布式计算系统运行元数据,如MaxCompute上所有作业运行等信息;类似于Hive的Job日志,包括作业类型、实例名称、输入输出、SQL、运行参...原创 2017-10-08 23:18:30 · 837 阅读 · 1 评论 -
理论篇~第五章 事实表设计
1 事实表基础2 事务事实表3 周期快照事实表4 累积快照事实表5 三种事实表的比较6 无事实的事实表7 聚集型事实表原创 2017-10-08 23:50:10 · 1319 阅读 · 1 评论 -
理论篇~第四章 维度设计
1 维度设计基础 1.1 维度的基本概念 维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述称为“维度”,维度是用于分析事实所需要的多样环境。 维度使用主键标识其唯一性,主键也是确保与之相连的任何事实表之间存在引用完整性的基础。主键有代理键和自然键,它们都是用来表示某维度的具体值。但代理键是不具有业务含义的键,一般用于处理缓慢原创 2017-10-08 23:48:17 · 1631 阅读 · 2 评论 -
理论篇~第三章 数据模型设计
常见数据模型介绍 1 ER模型 数据仓库之父Bill Inmon提出的建模方法,是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务。其具有以下几个特点: 需要全面了解企业业务和数据 实施周期非常长 对建模型人员要求非常高 采用ER模型建设数据仓库的出发点是基于整合数据,将各个系统的数据原创 2017-09-24 10:07:02 · 10114 阅读 · 1 评论 -
理论篇~第二章 数据仓库的命名规范
大家可能对命名规范重视不太够。在多年的工作中,碰到太多由于命名不规范,导致代码混乱和数据管理困难等问题。这个问题在元数据管理时,体现得特别重要。当然,每个公司的命名规范不一样,只要做到易理解、易管理就行。接下来,说说自己的理解。1 表 表的命名首先按数据分层和主题来划分来定规范。 1.1 ODS层(操作数据层) ODS层作为最底层,应该原创 2017-09-23 23:30:02 · 6000 阅读 · 0 评论 -
理论篇~第一章 大数据数据仓库架构
接下来,我们以阿里巴巴大数据架构图来介绍。 大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识): 1 数据采集层 数据采集的对象主要是传统数据库数据和日志数据。一般公司采用sqoop开源工具采集传统数据库数据,大公司会开发专门工具。例如,阿里的Dat原创 2017-09-23 22:30:35 · 8372 阅读 · 1 评论 -
浅谈数据仓库建设中的数据建模方法
周三保(zhousb@cn.ibm.com) IBM 软件部信息技术专家.简介: 本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在数据仓库建设项目中的一些经验,在这里分享给大家。希望帮助大家在数据仓库项目建设中总结出一套能够合乎目前业界规范的,满足大部分行业数据仓库建设标准的一种方法。所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模...转载 2018-06-29 13:11:15 · 9007 阅读 · 2 评论