数仓实践
文章平均质量分 89
数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,本专栏主要专注于数仓工具学习、数仓建模以及业务实战。
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
数仓实践:有关数仓架构的一些设计
在早期数仓建设中,大多以批处理的方式为基线进行开发,随着业务的发展,需求对实效性和准确性要求越来越高,于是有了实时数据处理的流程,随之出现了 Lambda、Kappa 以及 Kappa+ 常见的数仓架构。原创 2024-08-18 15:56:34 · 212 阅读 · 0 评论 -
数仓实践:浅谈 Kimball 维度建模
我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如 Teradata ),抑或是基于传统 Oracle 、MySQL 、SQL Server 关系型数据库的数据仓库,其实都面临如下问题:怎么组织数据仓库中的数据?怎么组织才能使得数据的使用最为方便和便捷?怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?Kimball ...原创 2022-05-21 10:51:08 · 1705 阅读 · 1 评论 -
数仓实践:如何优雅的设计DWS层?
对于数仓的分层,大家最耳熟能详的就是基于OneData方法论的三层数仓划分,分别是:数据引入层(ODS,Operational Data Store)、数据公共层(CDM,Common Dimenions Model)和数据应用层(ADS,Application Data Store)。当然,涉及到每一层具体该怎么建模,可能大家都有自己的理解。数据建模无疑是重中之重,如果我们把指标比作树上的果实,那么模型就好比是大树的躯干,想让果实结得好,必须让树干变得粗壮。我们先来回想下,构建数据中台的初衷是原创 2021-06-30 09:46:17 · 1521 阅读 · 3 评论 -
数仓解惑:数据仓库常见建模方法与大数据领域建模实例综述
为什么需要数据建模?为什么要进行数据仓库建模?随着DT时代互联网、智能设备等信息技术的发展,数据开始井喷式的增长,如何讲这些数据进行有序、有结构地分类组织存储是我们面临的一个挑战。如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置,而不是乱糟糟的大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑...原创 2021-05-05 16:23:09 · 5109 阅读 · 21 评论 -
数仓解惑:什么是 OneData?阿里数据中台实施方法论解读
一、前言OneData 即是阿里巴巴内部进行数据整合及管理的方法体系和工具。在这一体系下,构建统 、规范、可共的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。二、OneData方法论概述数据架构方法(全局化规划数据体系):数据域划分 -> 数据总线矩阵构建 -> 数据分层规划数据模型设计方法(好用且复用):维度 -> 事实 -> 公共汇总数据标准化方法(计算口径&表达统一):派生指标 = 原原创 2021-06-15 21:42:08 · 14591 阅读 · 26 评论 -
数仓实践:数据开发需要了解的 BI 数据分析方法
数仓开发经常需要与数据表打交道,那么数仓表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。通过数据的分析与可视化呈现可以更加直观的提供数据背后的秘密,从而辅助业务决策,实现真正的数据赋能业务。帕累托分析方法与数据可视化RFM分析与数据可视化波士顿矩阵与数据可视化本文主要介绍了数仓开发应该要了解的常见的数据分析方法,主要有三种:帕累托分析、RFM分析以及波士顿矩阵分析。原创 2024-10-09 21:25:39 · 159 阅读 · 0 评论 -
DAMA 数据管理知识体系指南:第十章 参考数据与主数据
关键步骤——1 数据模型管理:对于主数据来说,在企业级使用的术语和定义应该与整个组织 所进行的业务相关联,而不必依赖于源系统贡献的数据值。主数据是“以与业务活动相关的 通用和抽象概念形式 提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。第十章在CDGA分值占比不高,CDGP分值占比较高,主要考点包括:定义、目标、原则、参考数据及主数据管理好处、异同点、哪些属于主数据、活动、工具、度量指标等基本概念。提出主数据的最佳版本。原创 2024-06-17 19:45:25 · 1745 阅读 · 0 评论 -
DAMA 数据管理知识体系指南:第三章 数据治理
由【数据管理专业人员】、【业务策略人员】,在【数据治理组织】的支持下共同起草数据治理的目标、原则和制度,然后由【数据管理专员】和【管理人员】审查并完善,最后由【数据管理委员会】终审、修订和发布。:需要组织文化的转变和持续的变革管理,文化包括组织思维和数据行为, 变革包括为实现未来预期的行为状态而支持的新思维、行为、策略和流程。以下为基于 DAMA-DMBOK2 梳理的核心常考知识点:驱动因素、目标和原则、组织和管理职责、数据治理活动、实施指南、组织和文化等。:理解和计算数据对组织的经济价值的过程。原创 2024-05-27 21:21:32 · 914 阅读 · 0 评论 -
DAMA 数据管理知识体系指南:第五章 数据模型与设计
关系捕获概念实体之间的高级别交互、逻辑实体之间的详细交互、物理实体之间的约束。第五章是 CDGA|CDGP 考试的重点考核章节之一,分值占比高,知识点比较密集,重点考查知识点包括:数据建模的定义、6 种数据模型及建模方法、业务驱动因素、数据模型目标与原则、数据模型组件、建模的数据类型、数据模型级别、数据建模和设计活动等。实体中属性的物理展现为表、视图、文档、图形或文件中的列、字段、标记或节点等。概念数据模型仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体和实体之间关系的描述。原创 2024-05-29 23:30:25 · 1076 阅读 · 0 评论 -
DAMA CDGP 论述题真题解析一:数据安全篇
数据安全治理得需要有足够的资金支持,面向系统、企业内保持方案一致,建立安全战略等,主要包括:数据安全分析现状,数据安全活动、以及基于数据生命周期等数据安全管理三个维度。可通过混淆处理(变得模糊或不明确)或脱敏(删除、打乱或以其他方式更改数据的外观等)的方式来降低数据可用性,同时避免丢失数据的含义或数据与其他数据集的关系。在数据和信息安全实施过程中,首先要评估组织当前的数据状态,确定需要保护的数据范围。因此,不能公开提供服务。在数据和信息安全实施过程中,首先要评估组织当前的数据状态,确定需要保护的数据范围。原创 2024-08-22 20:58:13 · 156 阅读 · 0 评论 -
DAMA 数据管理知识体系指南:第七章 数据安全
5)已完成正式风险评估分析的业务单位的百分比。第七章在 CDGA|CDGP 考试中的分值占比较高,主要考核知识概念的熟练程度,主要考点包括:数据安全定义、目标与原则、驱动因素、安全过程 4A+E、安全手段(加密类型、脱敏类型与方法等)、PIC 数据类型、安全法律法规、活动、度量指标等。4A:访问(Access)、审计(Audit)、验证(Authentication)、授权(Authorization)。4)数据与特定业务流程的风险映射,与销售点设备相关的风险将包含在金融支付系统的风险预测中。原创 2024-06-16 00:21:33 · 857 阅读 · 0 评论 -
DAMA 数据管理知识体系指南:第一章 数据管理
第一章在 CDGA|CDGP 考试中分值占比均不是很高,主要侧重点是考概念性的知识,理解数据管理的目标原则、还有与其他概念的区别点,同时掌握几个关键核心的图(车轮图、六边形图、语境关系图)。数据管理(Data Management):为了 交付、控制、保护 并 提升 数据和信息资产的 价值,在其整个生命周期中制订 计划、制度、规程和实践 活动,并 执行 和 监督 的过程。1 数据管理章程:总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。【满足自己和利益方的需求。原创 2024-05-23 23:24:07 · 993 阅读 · 0 评论 -
DAMA:数据治理 CDGA/CDGP 认证考试备考经验分享
主要方式就是看书,包括《DAMA-DMBOK2 数据管理知识体系指南》和《穿越数据的迷宫:数据管理执行指南》,这两本书在网络都有售卖。通读教材,了解基本内容和不同知识领域自己的掌握情况,做到心中有数精读教材,结合笔记、思维导图系统梳理知识点,这一遍时间最长结合了数贝(厦门数贝信息科技有限公司提供的“databok数据课”,可以在微信中搜索到小程序“数贝”)提供的练习题进行模拟训练,对训练过程中出错的题目反向查找知识点进行强化学习,加深理解查漏补缺,快速过一遍教材。原创 2024-05-18 16:25:51 · 2485 阅读 · 1 评论 -
DAMA:CDGP 考试重点及知识点分解
5、数据架构实施,评估和风险、组织和文化。1、数据治理业务驱动因素、目标和原则。1、数据质量业务驱动因素、目标和原则。1、数据架构的业务驱动、成果和实施。1、主数据业务驱动因素、目标和原则。1、元数据管理业务驱动,目标和原则。4、数据治理实施指南、组织和文化。1、业务驱动因素、目标和原则。2、数据治理组织和管理职责。1、数据安全业务驱动因素、单选(3)、 多选(1)单选(2)、 多选(4)单选(2)、 多选(4)6、参考数据和主数据治理。2、数据架构的基本概念。4、数据架构管理工具。6、数据架构评估指标。原创 2024-05-17 14:38:21 · 1135 阅读 · 0 评论 -
数仓解惑:什么是主数据?
主数据 (MasterData):在企业中用来定义业务对象的、具有持续性、非交易类的数据。相对于交易类数据,主数据是相对稳定的数据。原创 2024-08-12 23:13:43 · 133 阅读 · 0 评论 -
数仓解惑:一致性维度和一致性事实
在 Kimball 的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念:总线架构(Bus Architecture),一致性维度(Conformed Dimension),一致性事实(Conformed Fact)。多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫 Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus Architecture)。多维体系结构的创始人是数据仓库领域中最有实践经验的 K原创 2024-08-01 21:02:35 · 91 阅读 · 0 评论 -
数仓实践:浅谈数仓建模宽表设计
主要讲解了一下几个方面为什么要建设宽表宽表的不足如何设计宽表宽表到底多宽主次分离冷热分类稳定与不稳定分类设计宽表的理论其实说白了就是一句话:高内聚低耦合,我们要从在业务、ETL 刷新、指标属性、数据来源等角度,让高度内聚的属性、描述、度量放在一个表中。基本可以从两个维度矩阵进行切割:第一:按实体属性可能涉及的业务范围进行划分。当前用户的基本属性和维度,数据相对静态,修改较少。统计的集合包括所有实体对象。用户在统计日发生的行为度量指标。原创 2024-07-14 22:40:48 · 1000 阅读 · 0 评论 -
数仓实践:一文读懂数仓 ODS 层模型设计
具体使用的方式可用全外连接(full outer join) + 数据全量覆盖重新加载(insert overwrite)的方式,即如日调度,则将当天增量数据和前一天全量数据做全外连接,重新加载为最新的全量数据。具体使用的方式可用主键去重(row_number)+ 数据全量覆盖重新加载(insert overwrite)的方式,即如日调度,则将当天增量数据和前一天全量数据合并后根据主键去重,重新加载为最新的全量数据。其中:OLD 表存储最近 N 天之前的数据,这部分数据不再使用 delta 增量数据更新。原创 2024-07-28 14:13:29 · 950 阅读 · 0 评论 -
数仓实践:维度建模标准规范定义
比例型指标定义方式为:派生指标+rb(ration by)+占比组,用于例如:“卖家最近1天销售金额行业占比”,派生指标为卖家最近1天销售金额,占比组为行业,可定义为pay_amt_1d_rb_industry。其定义方式为:派生指标+排名范围(例如:行业、省份、一级类目等)+排名方式(例如:升序排名ark,降序排名drk)+topN+对象名+s(s代表指标为字符串)。例如,新发商品数,重发商品数,新增注册会员数,订单支付金额,这类指标需维护原子指标及业务限定,在此基础上根据指定的统计粒度创建派生指标。原创 2024-07-17 01:00:28 · 747 阅读 · 0 评论 -
数仓实践:数据仓库建设公共规范指南
数据模型的事实表设计在维度模型事实表的基础上,结合数据使用场景的具体实践,进行一定扩展,采用宽表设计方法。比如会员表,建议拆分为核心表和扩展表。建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要,必要时让核心模型与扩展模型做关联,不能让扩展字段过度侵入核心模型,破坏了核心模型的架构简洁性与可维护性。在指标定义中,采取组件化的形式,进行指标标准化定义,先规范定义,后生产,全生命周期控制,保障数据口径统一,减少重复建设,强调数据复用和共享。原创 2024-07-15 19:53:14 · 1519 阅读 · 0 评论 -
数仓实践:关于维度表的设计与实践
1、共享维度表。比如在阿里巴巴的数据仓库中,商品、卖家、买家、类目等维度有且只有一个。所以基于这些公共维度进行的交叉探查不会存在任何问题。2、一致性上卷,其中一个维度的维度属性是另一个维度的维度属性的子集,而两个维度的公共维度属性结构和内容相同。比如在阿里的商品体系中,有商品维度和类目维度,其中类目维度的维度属性是商品维度的维度属性的子集,且有相同的维度属性和维度属性值。这样基于类目维度进行不同业务过程的交叉探查也不会存在任何问题。3、交叉属性。两个维度具有部分相同的维度属性。原创 2024-07-10 11:50:26 · 764 阅读 · 0 评论 -
数据仓库:关于事实表的设计与实践
事实表 作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度;一种是所表示的具体业务含义。英文名:我们预设定了业务过程名作为命名的一部分,因此候选部分用户以下划线连接的英文缩写进一步表达逻辑模型的业务含义。名称:建议以相对完整的中文短语描述名称,主要包括业务主体、业务过程,比如淘宝交易下单业务事实表。原创 2024-07-08 20:17:09 · 790 阅读 · 0 评论 -
数仓实践:浅谈维度建模优劣分析
维度建模(dimensional modeling)是数据仓库建设中的一种数据建模方法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市,这种方法最被人广泛知晓的名字就是星型模式(Star-Schema)。实体关系(E-R)建模:通常用于为单位的所有进程创建一个复杂的模型,这种方法已被证实在创建高效的联机事务处理 (OLTP)系统 方面很有效;相反,维度建模针对零散的业务进程创建个别的模型。原创 2024-07-10 22:23:36 · 258 阅读 · 0 评论 -
数仓建设:数据域和主题域是什么关系?
为什么会有域的概念呢?首先来看看数据仓库的定义吧,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。主题域已经体现出来了主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。当然,还有另外一种说法。数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的...原创 2022-04-24 22:52:59 · 6666 阅读 · 0 评论 -
数仓实践:总线矩阵设计
如何设计一套切实可行的数据仓库呢?我们要明白,对于数据仓库的设计是不能完全依赖于业务的需求,但往往又必须要服务于业务的价值。因此,在构建数据仓库前,我们往往会通过总线矩阵设计,来快速理解业务并规划数据仓库体系。以求从宏观的角度来描述企业的业务和数据现状,并指导后续的数据仓库建模。不妨先来看看,祖师爷 Kimball 在书中对总线矩阵的定义:总线矩阵:提供一种分解企业DW/...原创 2022-05-10 21:30:26 · 3276 阅读 · 0 评论 -
数仓实践:企业级 CDP 数据工程实践经验
大家好,许久未见,我是云祁~今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下,大家可能会将数据工程与ETL的过程画上等号,但实际上ETL只是数据工程的一部分,其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目,本质上是要解决三大问题:客户有什么?客户想要什么?怎样设计最合理?因此,在数据工程项目中,数据现状梳理、业务理解和数据模型设计等工作量通常占据了项...原创 2023-07-06 21:08:44 · 1227 阅读 · 1 评论