数据模型设计
文章平均质量分 71
介绍数据库建模,数仓建模相关
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
数仓指标分类
1.原子指标不加任何修饰词的指标就是原子指标,也叫度量。一般存在于olap表中,指表达业务实体原子量化属性的且不可再分的概念集合,涉及聚合操作,如交易笔数、交易金额、交易用户数、订单量、用户量的等等。原子指标=业务过程(动作)+度量,如支付(事件)金额(度量),交易笔数、交易金额、交易用户数等。和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如销售金额、库存数量。2.派生指标修饰词:修饰词用于派生指标和复合指标的定义,不含有计算口径。指除了统计维度以外指标的业务场景,如某原创 2022-05-07 15:18:12 · 1480 阅读 · 0 评论 -
数据库设计的范式 (09年文章新浪博客迁移)
第一范式(1NF):在关系模式R中的每一个具体关系r中,如果每个属性值都是不可再分的最小数据单位,则称R是第一范式的关系。例:如职工号,姓名,电话号码组成一个表(一个人可能有一个办公室电话和一个家里电话号码) 规范成为1NF有三种方法:一是重复存储职工号和姓名。这样,关键字只能是电话号码。二是职工号为关键字,电话号码分为单位电话和住宅电话两个属性三是职工号为关键字,但强制每条记录只能有一个电话号码。以上三个方法,第一种方法最不可取,按实际情况选取后两种情况。第二范式(2NF):如果关系模式R(U,F原创 2022-03-24 10:46:36 · 129 阅读 · 0 评论 -
维度建模优劣分析(11年文章新浪博客迁移)
维度建模(dimensional modeling)是数据仓库建设中的一种数据建模方法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表,维表来构建数据仓库,数据集市,这种方法最被人广泛知晓的名字就是星型模式(Star-schema)。实体关系(E-R)建模通常用于为单位的所有进程创建一个复杂的模型,这种方法已被证实在创建高效的联机事务处理 (OLTP) 系统方面很有效;相反,维度建模针对零散的业务进程创建个别的模型。例如,销售信息可以创建为一个模型,库存可以创建为另一个模型,而客户原创 2022-03-24 10:16:47 · 1769 阅读 · 0 评论 -
数据仓库金融行业逻辑数据模型FS-LDM
一、概述(1)什么是LDM逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放、数据组织、以及如何支持应用的蓝图,定义需要追踪和管理的各种重要实体、属性、关系。(2)为什么需要LDM操作型数据库和数据仓库都需要的数据组织模式;LDM是构建DW的第一步,是建立BI的基础框架,是提供价值数据分析的重要基础,为复杂的DW系统实施提供了规范和基础结构的蓝图;LDM促进业务部门和IT分析人员之间的有效沟通,形成对重要业务定义和术语的原创 2022-03-24 09:20:22 · 5815 阅读 · 0 评论 -
数据库设计14个技巧
1. 原始单据与实体之间的关系 可以是一对一、一对多、多对多的关系。在一般情况下,它们是一对一的关系:即一张原始单据对应且只对应一个实体。在特殊情况下,它们可能是一对多或多对一的关系,即一张原始单证对应多个实体,或多张原始单证对应一个实体。这里的实体可以理解为基本表。明确这种对应关系后,对我们设计录入界面大有好处。 〖例1〗:一份员工履历资料,在人力资源信息系统中,就对应三个基本表:员工基本情况表、社会关系表、工作简历表。 这就是“一张原始单证对应多个实体”的典型例子。2.原创 2022-03-18 15:39:21 · 477 阅读 · 0 评论 -
数据库设计模式
什么是模式?简单说来,模式类似于定式,就是遇到反复出现的同一问题时所固定使用的解决方案。下围棋的朋友可能对“定式”这个词比较熟悉,定式包含着下棋时做遇到的各种情况下的下法、急所、手筋及死活等基本原理,例如星定式、小目定式、边定式等等,定式懂的越多,围棋下的越好。那么是不是数据库设计模式懂得越多,设计工作越完美呢?理论上是这样,但是在我这里,各位朋友所能看到的数据库设计模式只有四种。为什么只有四种而不是更多?不时有那句话吗:“浓缩的都是精华”!《易传·系辞》曰:“易有太极,是生两仪,两仪生四象,四象生原创 2022-03-18 10:59:35 · 638 阅读 · 0 评论 -
Teradata金融业仓库逻辑模型(FS-LDM)
一、IBM与Teradata仓库模型比较银行业:IBM有BDWM(Banking Data Warehouse Model)Teradata有FS-LDM(Financial Services Logical Data Model)电信业:IBM有TDWM(Telecom Data Warehouse Model)Teradata有TS-LDM(Telecom Services Logical Data Model)二、Teradata FS-LDM7.0Teradata F原创 2022-03-24 08:53:34 · 3184 阅读 · 0 评论 -
初识Data Vault建模
Data Vault(DV)模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出(http://www.danlinstedt.com)。Dan Linstedt将Data Vault模型定义如下:Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方...原创 2019-11-20 11:18:15 · 979 阅读 · 0 评论 -
缓慢变化维 (Slowly Changing Dimension) 常见的三种处理类型及实例解析
在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以满足这些需要。很显然在业务数据库中数据的变化是非常自然和正常的,比如顾客的联系方式,手机号码等信息...原创 2019-08-18 06:49:43 · 1619 阅读 · 0 评论 -
数仓模型设计时代理键的使用
在关系型数据库设计中,代理键是在当资料表中的候选键都不适合当主键时,例如资料太长,或是意义层面太多,就会用一个attribute来当代理主键,此主键可能是用流水号,来代替可辨识唯一值的主键。在数据仓库领域有一个概念叫Surrogate key,中文一般翻译为“代理关键字”。代理关键字一般是指维度表中使用顺序分配的整数值作为主键,也称为“代理键”。代理关键字用于维度表和事实表的连接。在Kimba...原创 2019-08-18 06:19:53 · 2533 阅读 · 1 评论 -
数据建模三范式
简述:1.所有表中的数据都为原子数据,不可再分2.所有表中的所有字段都必须依赖主关键字3.所有表中的非主关键词之间不能函数依赖关系定义说明:第一范式(1NF):在关系模式R中的每一个具体关系r中,必须要有主键,并且每个属性值 都是不可再分的最小数据单位,则称R是第一范式的关系。第二范式(2NF):如果关系模式R中的所有非主属性都完全依赖于主关键字,则称关系R 是属于第二范式的。例...原创 2019-08-20 07:19:30 · 3827 阅读 · 1 评论 -
同仁数仓分层模型架构分享(3)
文章在京东系数据仓库建设方案的基础上,加上自己独特的理解,很能给人以参考和启发。原作者:hxiao1317098 原文:https://blog.csdn.net/hxiao1317098/article/details/73623690 对于大数据来说,数仓的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的数仓主要是用来解决企业内部数据的分析,尤其是各种各样的统...原创 2019-08-01 08:47:57 · 357 阅读 · 0 评论 -
同仁数仓分层模型架构分享(2)
不知其来源出处,感觉是一字一字码出来的经验之谈,特分享与此。 分层案例 1.电信通讯stage层 ->bdl层 ->analysis层2.传统金融/保险ods层 ->pdm层 ->dm层3.互联网金融/电商odl层 ->bdl层 ->idl层 ->adl层尽管行业不同,但套路却差不多。 专业术语 ODL层 (Operational...原创 2019-05-22 17:13:12 · 580 阅读 · 0 评论 -
数仓架构实践1:阿里五层模型架构
1. ODS数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分2. DWD数据明细层功能:为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑建模方式...原创 2019-05-17 13:58:23 · 6054 阅读 · 0 评论 -
数仓架构实践2:京东四层模型架构
京东数仓大致分四层架构BDM:数据缓冲层,与源系统保持一致,相当于传统数仓的ODS。FDM:基础数据层,按主题设计,数据融合,存放明细历史数据,相当于传统数仓的EDW。GDM:通用汇总数据层,明细粒度,可以查询到具体字段信息;数据的预关联,预汇总和预加工;依赖对应用的共性提炼,而不是某个具体应用。ADM:聚合数据层,应用层。面象应用按需定制。1:数据缓冲层(BDM)源业务系统数据的...原创 2019-05-17 14:21:31 · 7634 阅读 · 0 评论 -
数仓架构实践3:苏宁售后体系四层模型架构
原始借鉴方案1. 复制层(SSA,system-of-records-staging-area)SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。也叫登台区。2. 原子层(SOR,system-of-rec...原创 2019-05-22 16:06:23 · 1627 阅读 · 0 评论 -
同仁数仓分层模型架构分享(1)
数据仓库的作用整合公司的所有业务,建立统一的数据中心。分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果。作为各个业务的数据源,形成业务数据互相反馈的良性循环。提供数据报表,用于公司的决策支持等等。数据仓库的架构数据采集层:数据采集层的任务就是把数据从各种数据源中采集和存储到数据库上,期间有可能会做一些ETL(抽取extra,转化transfer,装载load )操作。数据...原创 2019-05-22 10:55:47 · 565 阅读 · 0 评论