第5章 数据建模和设计

#DAMA数据管理知识体系指南读书笔记(原书第2版)#


目录

一、数据建模定义

1、基本概念:

2、建模的数据类型

3.数据模型组件

4.数据建模的方法

二、活动

1、规划数据建模

2、建立数据模型

1)正向工程

2)逆向工程

3、 审核数据模型

4、 维护数据模型

三、工具

1、 数据建模工具

2、 数据血缘工具

3、数据分析工具

4、元数据资料库

5、数据模型模式

6、 行业数据模型

四、方法

1、命名约定的最佳实践

2 、数据库设计中的最佳实践

五、 数据建模和设计治理

总结


一、数据建模定义

数据建模定义:是发现、分析和确定数据需求的过程,然后采用数据模型的精确形式表示和传递这些数据需求。这个过程是循环迭代的,可能包括概念、逻辑和物理模型。

目标:确认并记录不同视角对数据需求的理解,确保应用程序更符合当前和未来的业务需求,为更多数据应用或数据管理奠定一个良好的基础,例如主数据管理和数据治理项目。

1、基本概念:

数据建模可以用于更广泛的领域(如业务和数据架构、主数据管理和数据治理计划)。

数据模型描述了组织已经理解或者未来需要的数据。数据模型包含一组带有文本标签的符号,这些符号试图以可视化方式展现数据需求并将其传递给数据建模人员,以获得一组特别的数据。

数据模型是用来将数据需求从业务传递到IT,以及在IT内部从分析师、建模师和架构师到数据库设计人员和开发人员的主要媒介。

2、建模的数据类型

四类静态数据建模

1)类别信息(Category Information)。用于对事物进行分类和分配事物类型的数据。例如,按市场类别或业务部门分类的客户;按颜色、型号、大小等分类的产品;按开放或关闭分类的订单。


2)资源信息(Resource Information)。实施操作流程所需资源的基本数据。例如,产品、客户、供应商、设施、组织和账户等。在IT专业人员定义中,资源实体有时被称为参考数据。


3)业务事件信息(Business Event Information)。在操作过程中创建的数据。例如,客户订单、供应商发票、现金提取和业务会议等。在IT专业人员定义中,事件实体有时被称为交易性业务数据。


4)详细交易信息(Detail Transaction Information)。详细的交易信息通常通过销售系统(商店或在线应用)生成。它还可以通过社交媒体系统、其他互联网交互(单〈双〉击流等)和机器上的传感器产生。这种类型的详细信息可以被聚合,用于派生其他数据,并用以分析趋势,类似于业务时间信息的使用方式。这种类型的数据(大容量或快速变化)通常被称为大数据

3.数据模型组件

实体、关系、属性和域

实体可以被认为是一些基本问题的答案——谁、什么、何时、何地、为什么、怎么办或这些问题的综合。通常采用矩形(或带有圆边的矩形)代表实体,矩形的中间是实体的名称

关系(Relationship)是实体之间的关联(Chen,1976)。关系捕获概念实体之间的高级别交互、逻辑实体之间的详细交互以及物理实体之间的约束。关系在数据建模图上通常显示为线条。

关系的基数:只能选择0、1或多(超过1个)

业务规则是:
1)每一名学生可以选择一门或多门课程。
2)每一门课程可以被一名或多名学生选择。
3)关系的元数。

①一元关系(Unary Relationship)也被称为递归关系(Recursive Relationship)或自我引用关系(Self-referencin Relationship)

②二元关系。涉及两个实体的关系被称为二元关系(Binary Relationship)。

③三元关系。涉及三个实体的关系被称为三元关系(Ternary Relationship)

4.数据建模的方法

关系建模:一种能够清晰表达含义的系统方法来组织数据,这种方法在减少数据存储冗余方面卓有成效。

维度建模:数据组织的方式是为了优化海量数据的查询和分析。维度数据模型专注于特定业务流程的业务问题

图5-12中展示的是用维度模型分析招生情况。可以根据学生所在的区域(Zone)、学校名称(School)、学期(Semester)以及学生是否接受财政资助(Financial Aid)来查看招生信息。导航可以从一个区域(Zone)上升到地区(Region)和国家(Country),从学期(Semester)上升到学年(Year),从学校名称(Name)上升到学校等级(Level)。

1)事实表。事实表(Fact Tables)的行对应于特定的数值型度量值

2)维度表。维度表(Dimension Tables)表示业务的重要对象,并且主要包含文字描述。

各个维度必须在每一行都有一个独一无二的标识符。维表中最主要的两种标识键是代理键和自然键。维度也有一些属性,它们以不同的速率发生变化。渐变类的维度根据变化的速率和类型来管理变化。3种主要的变化类型有时被称为ORC,具体如下:
①第一类,覆盖(Overwrite)。新值覆盖旧值。
②第二类,新行(New Row)。新值写在新行中,旧行被标记为非当前值。
③第三类,新列(New Column)。一个值的多个实例列在同一行的不同列中,而一个新值意味着将系列中的值向下一点写入,以便在前面为新值留出空间。最后一个值被丢弃

3)雪花模型。
雪花模型(Snowflaking)的含义是将星型模式中的平面、单表、维度结构规范为相
应的组件层次结构或网络结构。


二、活动

简要介绍数据建模概念、逻辑和物理数据模型的设计步骤,以及维护和审查数据模型的步骤和方法,并讨论正向工程和逆向工程。

1、规划数据建模

数据建模工作计划主要包括评估组织需求、确定建模标准、明确数据模型存储管理等任务。

数据建模工作交付成果包括:1)图表(Diagram)、2)定义(Definitions)、3)争议和悬而未决的问题、4)血缘关系(Lineage)

2、建立数据模型

首先要研究现有的数据模型和数据库,参考已发布的建模标准和数据标准,搜集和考虑随时提出的新的数据要求,在此基础上建模人员设计数据模型初稿;然后再与业务专家和业务分析师确认及讨论模型设计是否符合业务规则要求,直至没有问题为止(迭代)。

1)正向工程

正向工程是指从需求开始构建新应用程序的过程

2)逆向工程

逆向工程是记录现有数据库的过程。物理数据建模通常是第一步,以了解现有系统的技术设计;逻辑数据建模是第二步,以记录现有系统满足业务的解决方案;概念数据建模是第三步,用于记录现有系统中的范围和关键术语。

3、 审核数据模型

4、 维护数据模型


三、工具

1、 数据建模工具

2、 数据血缘工具

如Excel 是一种常用的血缘工具

3、数据分析工具

4、元数据资料库

元数据资料库是一款软件工具,用于存储有关数据模型的描述性信息,包括图表和附带的文本(如定义)以及通过其他工具和流程(软件开发工具、BPM工具、系统目录等)导入的元数据。

元数据资料库必须具有便于用户访问的方式,供人们查询存储库的内容

5、数据模型模式

6、 行业数据模型


四、方法

1、命名约定的最佳实践

对每种类型建模对象和数据库对象发布数据模型和数据库命名标准。命名标准对于实体、表、属性、键、视图和索引尤为重要。名称应该是唯一的并且尽可能具有描述性。逻辑名称对业务用户应具有意义,应尽可能使用完整的单词,并避免使用除最熟悉的缩写之外的单词。

命名标准应该尽量减少跨环境的名称变化

2 、数据库设计中的最佳实践

1)性能和易用性(Performance and Ease of Use)

2)可重用性(Reusability)

3)完整性(Integrity)

4)安全性(Security)

5)可维护性(Maintainability)


五、 数据建模和设计治理

数据模型和数据库设计应该是企业短期需求和长期需求之间的合理平衡

1.开发数据建模和设计标准

2.评审数据模型以及数据库设计质量

3.管理数据模型版本与集成

 度量指标:测量数据模型的质量


总结

本单节专业性较强,特别是关于关系性数据库建模的规范化的范式要求,让我突然以为自己还在看数据库原理的书。本章中提到了行业数据模型,这点在实际工作中,如果能借鉴行业已有的数据模型,对项目开展有极大的帮助。另外最后提到的度量指标,是一个很好的复盘方向。

  • 53
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值