数据架构:什么是数据模型(非常详细)丛零基础到精通,收藏这篇就够了!

一、什么是数据模型?

首先从一个更高的视角来看看数据模型所处的位置,它毕竟不是最顶层的组件。它是属于数据架构中的四大重要构成之一,其余三个是数据资产目录、数据标准和数据分布。

注:来自《华为数据之道》

数据模型其自身是描述数据、数据关系、数据操作以及数据约束的一种规则和标准,目的是明确数据的组织方式、存储关系和数据之间的约束关系,它为数据库系统的信息表示与操作提供了一个抽象的框架,能够指导IT开发,是应用系统实现的基础。通常认为数据模型包含有三层模型,概念模型(业务顶层设计)→逻辑模型(业务需求完整性)→物理模型(代码实现,兼顾性能),箭头的方向代表了设计的先后,逐层细化到可落地代码实现。

模型类型模型定义主要作用与上一层的关系所包含的核心要素
概念模型按照用户的观点和认识对现实世界的数据进行建模,是数据建模的起点,描述数据的基本概念和业务领域中的主要实体、关系和业务规则,不涉及具体的技术实现细节映射出业务的真实需求,促进业务人员和技术人员之间的沟通,指导后续设计概念模型是逻辑模型的基础1. 实体(Entity):代表业务领域中的核心对象或概念2. 属性(Attribute):描述实体的特征或性质3. 关系(Relationship):描述实体之间的联系或相互作用
逻辑模型对概念模型建模,是数据抽象的中间层,用于描述数据库的整体逻辑结构,考虑数据的完整性约束和业务规则的实现细化数据结构,确保数据完整性,指导数据库实现逻辑模型在概念模型的基础上进一步细化,并为物理模型提供指导1. 数据表(Table):对应数据库中的表结构,用于存储数据2. 字段(Field):对应表中的列,用于描述数据的属性3. 主键(Primary Key):唯一标识表中的每一行数据 4. 外键(Foreign Key):用于建立表与表之间的联系,确保数据的完整性5. 约束(Constraint):对数据的存储和取值进行限制
物理模型对数据的最底层抽象,描述数据在计算机系统内部的表示方式和存取方法,在磁盘等存储介质上的存储结构和存取方法,考虑特定DBMS的存储结构、索引方式、性能优化策略等细节关注数据存储、索引策略、分区、性能调整和数据安全等底层细节物理模型基于逻辑模型,并考虑具体的DBMS和硬件环境实现1. 存储结构(Storage Structure):描述数据在磁盘等存储介质上的组织方式2. 存取方法(Access Method):描述数据的检索和更新方式 3. 性能优化策略(Performance Optimization Strategy):提高数据库的查询和更新性能4. 数据安全措施(Data Security Measure):保护数据的机密性、完整性和可用性

二、数据模型的主要构成(令人悲伤,目前没有统一标准)

数据模型的主要构成包含如下几个内容:

注:来自《企业数据架构实践指南1.0》

这个图更多的是站在企业级的视角来看数据模型,视角较高,而且理解上需要较多的大项目经验。重点关注点是区分清楚企业级和系统级的区别。企业级是全司级别的,由多个系统级构成。

但是这个数据模型的主要构成要素,目前没有大一统的标准分类,下面的是《华为数据之道》的建议定义:

这个图中,带来对应的示例,理解上也更具体些。但是还是要注意,这些分层没有标准化的分类,即便是DAMA的,也都是给出的建议,在真正落地的时候还是要切合实际业务领域进行划分。

三、数据模型的建设思路及其主要活动

这个图来自阿里云的帮助问题,个人只是做了略微调整,对于这张图已经一图胜千言,算是很清楚了。唯一需要关注的有三个重点:

1、什么是维度建模?这个后面有时间了再介绍;

2、数据标准的构建。这个也等后面有时间了再介绍。

3、概念模型、逻辑模型、物理模型的核心要素,这些现在有很多材料了。很容易查找到相关材料。

四、数据仓库的顶层设计示例

顺手写了一个数仓的顶层设计的示例,这里有点脱离数据模型了,但是这些内容在现代数据开发流程,又都紧紧勾稽在一起。

主要点解释:

1.ODS是企业级的,面向全司构建的。这个按照子公司→来源系统分类→来源系统→来源Schema →来源物理表就可以,简简单单,清清楚楚。

2.DWD、DWS最好按照业态进行逻辑分类隔离。一级分类按照业态,二级分类在按照个各自的业务过程。

3.DIM的构建是很复杂的,不同业态下想抽出公共维度的难度是极高,通常能抽取出来做公共维度的模型,也就客户、日期、机构等。机构本身都比较很麻烦,很多公司的机构组织形式极其复杂。

4.什么叫企业级的?就是全司的所有业务形态合并到一起的。如果小公司,通常业务很单一,以上建模爱怎么搞也不会乱到哪里去。但是如果是大公司,公司有多种业务形态,例如有电商子公司、有金融子公司、有旅游子公司,那么不好好分类归集,后续还要做跨子公司的分析,那就不太可能咯。

五、实际构建的示例

这个示例来自阿里云的数仓构建示例:如何使用维度建模_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

这个示例将整个数仓的构建流程讲的非常清楚,个人也觉得难以写得更好了,也没有能力再去重复这个工作了。如果真要看一些的小的实战例子,可以看看我以前写的ODS、DWD、DWS构建相关的文章。

下面的示意图是抽取了阿里云示例中的与用户注册相关的构建活动内容,完整的还是建议看看下阿里云帮助文档,会更容易的理解。

步骤一:对数仓设计主题域(业务分类),其次做数据分层。其次,示例中对标准做了一些简单的规范,实际工作还涉及调度、代码等规范:

步骤二:制定数据标准。数据标准包含字段标准(标准词根,通常是业务词汇,例如产品的中文名、英文名)、标准代码(性别,其代码值为男和女)、度量单位(人数、元)。要做企业级的数据标准是很难的,因为大公司有太多的存量系统,即便是一个性别字段都有很多套不同的码值,所以对于新项目一定要建立统一的标准,不然以后极其难以维护,避免在数仓和集市花费大量的精力去转换码值。

步骤三:设计数据指标。包括原子指标和衍生指标。

u原子指标:也称为度量,是不加任何修饰词的指标,一般存在于OLAP(联机分析处理)表中,涉及聚合操作。它是业务定义中不可再拆分的指标,具有明确业务含义的名词。原子指标等于业务过程(原子的业务动作)加上统计方式,统计方式通常是做聚合计算。简单来说,原子指标就是描述一个业务过程的量化属性,例如“订单金额”、“交易笔数”、“交易用户数”等。这些指标是构建更复杂指标的基础。

u衍生指标:则是基于原子指标进行二次计算或结合其他因素(如时间周期、修饰词等)产生的指标。它可以是利用公式对原子指标进行加减乘除运算得到的,也可以是通过添加修饰词对原子指标进行限定得到的。例如,“近7天订单量”、“近1个月的新增用户数”、“平均订单金额”等都是衍生指标。这些指标提供了对业务过程的更深入分析和理解。

两者的关联性:

u基础与衍生:原子指标是衍生指标的基础。没有原子指标,就无法构建衍生指标。衍生指标是在原子指标的基础上,通过一定的计算规则或添加修饰词得到的。派生指标由原子指标、修饰词、时间周期构成。

衍生指标构建在基础指标之上,形成结构化的指标体系。

u互补性:原子指标和衍生指标在数仓架构中相互补充。原子指标提供了对业务过程的基本量化描述,而衍生指标则提供了更深入、更细致的分析视角。

u共同服务于业务分析:无论是原子指标还是衍生指标,它们都是为业务分析服务的。通过这些指标,企业可以更好地了解业务状况,发现业务问题,并制定相应的业务策略。

步骤四:设计公共维度和明细数据层。这块略显复杂,多参悟下阿里云的帮助文档,以及维度建模的相关资料。

步骤五:设计汇总模型和应用模型。

汇总模型会涉及统计的维度和对应的指标

应用模型也会涉及使用相应的指标:

以上至少简要的描述,具体请参考阿里云例子,并仔细参悟。

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。

L2级别:AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3级别:大模型Agent应用架构进阶实践

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别:大模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

三、大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

四、大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值