数仓建模
文章平均质量分 93
数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,现在已统一
猫猫姐
这个作者很懒,什么都没留下…
展开
-
数仓建模—什么是数据中台
数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。要回答数据中台是什么,首先要探讨一下中台到底是什么。中台,通过对业务、数据和技术的抽象,对服务能力进行复用,构建了企业级的服务能力,消除了企业内部各业务部门、各分子公司之间的壁垒,适应了企业特别是大型企业集团业务多元化的发展战略。基于中台,可快速构建面向最终消费者和客户的前台应用,从而满足各种个性化特征的前台需求,为企业的数字化转型提供明确的道路。原创 2024-05-18 08:58:44 · 2 阅读 · 0 评论 -
数仓建模—企业数字化建设
信息化是数字化的基础,数字化是信息化的高阶阶段。信息化解决的是效率问题,而数字化则是业务价值导向,也就是通常说的给业务赋能。数字化必定包含信息化且不能否定信息化,同时数字化转型一定要返回到业务本身,因为数字化转型本质上是业务问题,其与信息化又彼此关联、彼此驱动。原创 2024-05-17 08:30:23 · 189 阅读 · 0 评论 -
数仓建模—数据报表体系搭建
前面说到了指标要与实际业务对应,这样才有意义,这点对于业务数据来说同样如此,因为不同企业信息化建设程度不同,有些刚刚建设完数据规范,有些已经完成部署了业务系统软件,有些更是搭建了商业智能BI,这就导致业务活动中储存的数据并不相同,可能在Excel表格里,业务系统数据库或者统一的数据仓库里。在很多已经具备数据报表分析能力的企业中,我们经常能看到这种现象,明明已经有大量报表制作完成,但还是不断的有临时性的报表需求,忙完了回来一看,一堆做完的报表别人动也没动过,还有很多只有开会用一次就再也没用了。原创 2024-05-14 08:17:51 · 370 阅读 · 0 评论 -
数仓建模—数字化运营
数字化运营比一般的业务运营更加加入和利用了数据、数字化技术手段,为企业的业务战略和决策提供了更加精细化的、可量化的、科学的数据支撑,从而有效的提升业务效率和管理效率,更好、更快、更优的达到企业经营和运营目标。从企业高层管理的角度可以非常方便的通过数据一看到底,不同的业务板块、业务条线的业务,不同的组织、部门的业务效率,一线的业务实际情况等等,想看就看,一看到底。更加深入的数据驱动、更加高效的协同配合、更加精细化的一看到底来支撑更加准确的科学决策,这就是数字化运营在传统的业务运营基础上加入的数字化的元素。原创 2024-05-12 09:43:09 · 696 阅读 · 0 评论 -
数仓建模—血缘分析
数据血缘,又称数据血统、数据起源、数据谱系,是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据,都必定存在数据血缘关系。原创 2024-05-11 09:55:10 · 14 阅读 · 0 评论 -
数仓建模—主题域和主题
主题是一个抽象概念,描述的是领域类型的分析,涉及到众多对象,主题的概念下,描述对象或者是与之相关的对象都在这一主题下,数据相对来说比较完整。数据集市在一定程度上是为了解决主题的分析问题,这主要使用者的组织架构考虑的,例如销售部门对销售主题的数据进行分析,财务部门对财务主题的数据分析主题下涉及到的实体一定归属于某个数据域,所以可以看到数据域这个概念更加偏向数仓内部管理,数据域强调的是数据的归属,而主题强调的是数据的使用,所以一个实体一定只属于一个数据域,但是很大程度用于多个主题。原创 2024-05-11 09:53:30 · 5 阅读 · 0 评论 -
数仓建模—美团数据质量监管平台实践
数据质量是数据治理建设的重要一环,与元数据管理、数据标准化及数据服务管理等共同构建了数据治理的体系框架。监控数据资产质量状态,为优化数据平台和数据仓库性能、合理配置数据存储资源提供决策支持;持续推动数据质量监控优化预警、实时监控的机制;重点优先监控关键核心数据资产,管控优化20%核心资源,可提升80%需求应用性能;规范了问题故障的跟踪、Review、优化方案。从数据中提炼价值,从方案中形成标准化的知识体系;由技术检测到业务监督,形成闭环工作流机制,提高整体数据质量,全面提升服务业务水平。原创 2024-05-09 09:01:49 · 201 阅读 · 0 评论 -
数据平台—邮件服务
数据平台一个比较常见的场景就是将每天的汇总数据通过邮件的形式发送出去,所以我们需要一个比较通用的邮件服务主要实现的功能是通过提供一段SQL, 将该SQL 获取的数据通过邮件的形式进行发送。主要包含两个模块,第一个是邮件模块,第二个是获取数据模块。原创 2024-05-08 11:45:52 · 530 阅读 · 0 评论 -
数仓建模—IOTA架构
IOTA大数据架构是一种基于AI生态下的全新的数据架构模式,2018年,易观首次提出这一概念。IOTA的整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的计算效率,同时满足计算的需要,可以使用各种Ad-hoc Query来查询底层数据。原创 2024-05-07 07:08:59 · 297 阅读 · 0 评论 -
数仓建模—数据水印
数据水印是指从原始环境向目标环境进行数据交换时,通过一定的方法向数据中植入水印标记,从而使数据具有可识别分发者、分发对象、分发时间、分发目的等因素,同时保留目标环境业务所需的数据特性或内容的数据处理过程。数据水印系统是一款针对数据文件中的敏感数据进行高级别仿真水印标识的数据安全产品,广泛应用于内外部数据共享交换等场景,解决数据扩散后泄漏主体不明确、无法追溯等难题。随着数字化转型的深入推进,企业内部大量数据在频繁交互,同时企业间有大量的数据共享、交换的需求。原创 2024-05-07 07:06:56 · 14 阅读 · 0 评论 -
数仓建模—数据仓库即服务
DWaaS 数据仓库即服务,可以在一定程度上解决小企业数字化改革的问题,降低了入局门槛DWaaS 通过服务的方式解决和很多小企业面临的问题,但是也有新的问题被引入,所以还需要更加优秀DWaaS提供商提供更加完善的方案DWaaS 对客户和提供商是服务和被服务的关系,其实很多企业已经有了自己的数据仓库,但是对业务的价值有多大可能无从考证,这也为我们提供了一个思路,那就是我们也要在企业内部做DWaaS,但是这个时候更多的可能是数据服务这一块的。原创 2024-05-06 08:54:09 · 181 阅读 · 0 评论 -
数仓建模—数据安全平台建设实践
以上模型比较适用于应用类型产品的权限管控,而数据类型的产品对信息安全的要求更高,而且各类资源间的关系也更复杂,使用传统的模型难以将内部关系进行清晰的表达,所以我们在RBAC权限模型的基础上,扩展设计了新的权限模型。早期的数据安全产品大多使用传统的权限模型,只能实现功能级权限管控,无法进行数据级权限管控。为此,美团用户平台应用研发组不仅设计了能表达和管控各种复杂关系的权限模型,还针对事前、事中、事后等三个场景,分别设计了审批、权限、审计三个子系统以保障数据安全的完整闭环,进而满足数据安全的各种要求。原创 2024-05-06 08:53:13 · 355 阅读 · 0 评论 -
数仓建模—用户旅程地图
UJM 即用户旅程地图,也称作用户生命周期旅程,也就是说如果我们把最后用户付费或者是传播作为最终的目标,那么我们希望用户在平台上的生命周期都能走到付费的这一步。UJM 模型里面有AARRR模型的身影,但是UJM 是站在用户角度去考虑问题的而AARRR是站在企业角度去考虑的,虽有重叠但是本质不同。OSM能够促使我们去思考产品的重要目标,UJM能够然我们去站在用户角度思考产品UJM所挖掘的痛点和机会点,也可以反哺OSM中的目标和策略。原创 2024-05-05 09:20:16 · 179 阅读 · 0 评论 -
数仓建模—数据治理的本质及实践
我们认为,数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。所以,数据治理强调的是一个过程,是一个从混乱到有序的过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。原创 2024-05-05 09:18:23 · 11 阅读 · 0 评论 -
数仓建模—主数据管理
在2018年中国信通院牵头编写的《主数据管理实践白皮书(1.0版)》中,主数据定义的概念如下:“指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。企业主数据指企业内一致并共享的业务主体,如图所示,是各个系统(包括操作型系统、事务型应用系统、分析型系统)间一致并共享的数据;是用来描述核心业务的实体,例如员工、组织机构、客户、供应商、会计科目等相关数据。主数据管理与元数据管理相辅相成。原创 2024-05-05 09:17:01 · 13 阅读 · 0 评论 -
数仓建模—数据驱动业务
企业达成目标KPI的过程中,需要将其细分到不同领域的业务场景中完成,比如针对老客户拉新的业务场景,企业会设计一个具备吸引力的运营策略,然后通过一些列的运营动作让更多人了解老邀新的机制,并使用户产生信任感愿意参与其中,从而触发后续的运营动作。企业数据分析不仅要分析异常原因和评估迭代效果,还要根据数据为企业找到业务突破点,企业首先要明确业务的增长目标,然后再聚焦目标做全方位的诊断分析,从中找到解决方案或思路,进行优化迭代,然后开发上线,最后最后评估效果,优化方案形成闭环。原创 2024-05-03 08:58:21 · 21 阅读 · 0 评论 -
数仓建模—数据领域常见概念
我有意识地分开了这三种角色,希望能够帮助大家了解到其中的差别。当然,我并不是说做BI和数据挖掘的不会做洞察,也不是说一定要通过转岗,事实上,很多公司里并没有数据洞察的岗位。更多我想告诉大家的是,如何将数据、信息转化为洞察,才是大幅增值的一个关键。未来的时代,数据将普及到各个角落,但对数据的应用却是千差万别的。我不否认数据科学家和大神的存在,能做出Alphago是很了不起的事。但。原创 2024-05-03 08:56:37 · 13 阅读 · 0 评论 -
数仓建模—美团DB数据同步到数据仓库的架构与实践
作为数据仓库生产的基础,美团数据平台提供的基于Binlog的MySQL2Hive服务,基本覆盖了美团内部的各个业务线,目前已经能够满足绝大部分业务的数据同步需求,实现DB数据准确、高效地入仓。在后面的发展中,我们会集中解决CanalManager的单点问题,并构建跨机房容灾的架构,从而更加稳定地支撑业务的发展。本文主要从Binlog流式采集和基于Binlog的ODS数据还原两方面,介绍了这一服务的架构,并介绍了我们在实践中遇到的一些典型问题和解决方案。原创 2024-05-03 08:55:37 · 20 阅读 · 0 评论 -
数仓建模—数据同步方案设计
直连同步日志解析同步我们介绍了一个常用的日志解析同步架构,以及它的变形。原创 2024-05-02 08:59:46 · 93 阅读 · 0 评论 -
数仓建模—表设计规范
表本身其实就是一组文件的集合,只不过我们赋予了它结构的概念,最终演化成了数据的组织方式。在整个数仓中从数据源到数据集成再到数据开发以及到最后的数据应用,我们都是通过表来完成的,也就是说我们的整个过程都是围绕着表来的。我们大致有下面几类表表(Table)是Hive的数据存储单元。它在逻辑上是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段。一条记录可以包含一个或多个列,各个列的名称和数据类型构成表的Schema。内部表:外部表:关于这个两个概念你可以参考。原创 2024-05-02 08:58:35 · 297 阅读 · 0 评论 -
数仓建模—事实表和维度表设计规范
建议对所有的表加上别名。一旦在SELECT语句中对表定义了别名,在整个语句中对此表的引用都必须以别名替代。考虑到编写代码的便捷性,约定别名尽量简洁,同时避免使用关键字。表别名采用简单字符命名。多层次的嵌套子查询,在别名之前要体现层次关系。SQL语句别名或分层的命名,从第一层次至第四层次,分别用P、S、U、D表示,取意为Part,Segment,Unit,Detail。也可用a、b、c、d来表示第一层次到第四层次。对于同一层次的多个子句,可以在字母后加1、2、3、4区分。必要时,为表别名添加注释。原创 2024-05-01 12:15:13 · 5 阅读 · 0 评论 -
数仓建模—数据资产管理
数据资产管理 的重点在管理上,数据资产管理其实是属于数据治理的一个环节,其实前面我们介绍过数据治理数据地图指标系统模型设计系统数据质量检测系统数据资产管理平台。原创 2024-05-01 12:13:55 · 12 阅读 · 0 评论 -
数仓建模—雪花模型和星型模型
我们看一下雪花模型和星型模型的对比属性星型模型雪花模型数据总量多少可读性容易差表个数少多查询速度快慢冗余度高低对实时表的情况增加宽度字段比较少,冗余底扩展性差好。原创 2024-05-01 12:12:45 · 4 阅读 · 0 评论 -
数仓建模—数据地图
数据地图的定义我们可以从它的名字上判断出来,首先是数据,其次是地图业务数据元数据(可以参考元数据管理接下来就是地图,地图最主要的实给我提供了方向同时也提供了搜索能力其实我么看到数据地图其实就是两大核心元数据采集与接入查询搜索能力的提供###不足之处提供更多的场景提供更多的可视化功能底层数据存储方式异构。原创 2024-04-29 08:49:46 · 95 阅读 · 0 评论 -
数仓建模—实时数仓架构发展史
前面我们说过,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。这里我们总结是实时数仓的3种架构,你可以参考数仓建模—数仓架构发展史前面的文章,了解一下整个数仓的架构发展。原创 2024-04-29 08:48:39 · 251 阅读 · 0 评论 -
数仓建模—数仓建模和业务建模
这篇文章的主要是为了对比数仓建模和业务建模的区别,从而更好的掌握,关于里面提到的很多数仓建模的知识,前面都有文章介绍,你可以参考。原创 2024-04-28 09:41:14 · 140 阅读 · 0 评论 -
数仓建模—数仓开发规范
数据统计日期的分区字段按以下标准:按天分区:ds(YYYYMMDD)。按小时分区:hh(00-23)。按分钟:mi (00-59)。is_{业务}:表示布尔型数据字段。以Y和N表示,不允许出现空值域。原则上不需要冗余分区字段。其实规范这个东西很重要,但是有时候它的设计不那么可续,例如我们公司的天分区字段是ds而不是pt,但是这个东西只要大家认可就行,但是不能因为不认可就不遵守。提高性能避免错误方便管理。原创 2024-04-28 09:40:00 · 248 阅读 · 0 评论 -
数仓建模—数据质量
在数据流转链路上,需要整理消费各个表的应用业务。通过给这些应用业务划分数据资产等级,结合数据的上下游依赖关系,将整个链路打上某一类资产等级的标签。根据数据质量不满足完整性、准确性、一致性、及时性时,对业务的影响程度划分数据的资产等级。通常,划分为5个性质的等级:毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。标记为A1。全局性质:数据直接或间接用于企业级业务、效果评估和重要决策等。标记为A2。原创 2024-04-26 09:29:09 · 22 阅读 · 0 评论 -
数仓建模—数据域
数据仓库是面向主题(数据综合、归类并进行分析利用)的应用。数据仓库模型设计除横向的分层外,通常也需要根据业务情况纵向划分数据域。数据域是联系较为紧密的数据主题的集合,是业务对象高度概括的概念,目的是便于管理和应用数据。数据域是指面向业务分析,将业务过程或者维度进行抽象的集合,这个集合就是数据域。它是以业务系统的角度,对业务过程进行归纳,抽象出来的数据域。原创 2024-04-26 09:28:11 · 372 阅读 · 0 评论 -
数仓建模—数据安全
数据安全无小事,我们常见的解决方案就是数据脱敏、用户身份认证、权限认证,随着业界对数据安全的重视,慢慢会有越来越多的安全解决方案出来的。差分隐私从原理上来说,也是向数据中注入可控的噪音元素的方式来保护用户隐私,添加的噪音数据符合拉普拉斯分布。原创 2024-04-25 09:07:49 · 102 阅读 · 0 评论 -
数仓建模—总线矩阵
通过总线矩阵,我们对整个数仓的结构能够有一个清晰的了解,很容易就能看出来某个业务过程包含哪些通用维度。通过总线矩阵建设数据结构框架,可以处理不同的以过程为中心的维度模型的实现,且他们的实现严格遵守一致性维度,各部分维度模型可以互相配合,互相联系。原创 2024-04-25 09:06:39 · 296 阅读 · 0 评论 -
数仓建模—OneData
OneData 就是一个听起来高大上的词,但其实本质上还是数仓建设那一套,总结起来就一个词——统一,但是这个词听起来容易做起来难。OneData的核心就是统一定义、标准建模、规范研发,工具保障统一定义 对个性化的数据指标统一规范定义标准建模 建立数据公共层对模型架构进行标准规范设计和管理规范研发 将建模方法体系贯穿在整个数据研发流程工具保障 通过研发一系列的工具保障方法体系的落地实施。原创 2024-04-24 13:06:15 · 23 阅读 · 0 评论 -
数仓建模—建模实战(建模流程)
这里我们主要还是梳理了一下建模的流程,当然这次我们是通过一个小的案例来演示的,还有就是我们熟悉了一下我们之前介绍的建模工具。因为是实战篇所以你需要对前面文章有一定的了解。原创 2024-04-24 13:04:01 · 44 阅读 · 0 评论 -
数仓建模—PDMan数仓建模工具初识
因为CHINER 是PDMan 的升级版本,所以我们这里直接介绍CHINERPDMan(CHINER) 是一款优秀的国产开源软件,能满足我们在建模过程中80%的需求PDMan 本身上手简单,学习成本低下一节我们从头开始使用PDMan设计一个模型。原创 2024-04-24 13:02:57 · 22 阅读 · 0 评论 -
数仓建模—OneID
ID Mapping 是OneID 的提前,OneID 是ID Mapping 的结果,所以要想做OneID必须先做ID MappingOneID 是为了打通整个数据体系的数据,所以OneID 需要以服务的方式对外提供服务,在数仓里面就是作为基础表使用,对外的话我们就需要提供接口对外提供服务。原创 2024-04-24 13:01:33 · 37 阅读 · 0 评论 -
数仓建模—ID Mapping(下)
这里我们是使用Spark 的GraphX 进行计算的,当然我们也可以使用其他图数据库来实现ID Mapping 的核心是连通图所以我们需要有一定的图论知识基础ID Mapping 是很多业务场景的基础,例如One ID 、用户画像。原创 2024-04-24 12:59:27 · 19 阅读 · 0 评论 -
数仓建模—ID Mapping(上)
ID Mapping 就如同它的名字一样,我们要做的就是将一系列的ID 关联起来,一些列的ID 可能是用户在不同平台上的标识,也可能是用户在不同设备上的标识,也可能是用户在不同状态下的标识,总之我们就是要将这一系列的ID 关联起来,尽可能地将用户的数据打通,从而提供更加全面准确的分析。原创 2024-04-24 12:58:30 · 34 阅读 · 0 评论 -
数仓建模—埋点设计与管理
其实所有的事件都是自定义事件,但是我们为什么还是要区分自定义事件呢?这是因为我们在一开始定义可很多通用的事件,所以我们的自定义事件是相对我们的通用事件而言的,但是我们怎么去定义一个自定义事件吗,其实还要考虑到通用的属性,因为这样我们可以复用通用事件的一些属性的定义,而不是完全重新设计一套东西。原创 2024-04-24 12:57:19 · 28 阅读 · 0 评论 -
数仓建模—数据集市(DM)
这里有一个词是主题,那就是我们集成后的数据,又按照了主题进行了划分,而面向主题划分出来的一个个小的集合构成了就是数据集市,也就是说数据集市是数据仓库的一个子集也就是数据仓库的一层。主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。原创 2024-04-24 12:55:54 · 22 阅读 · 0 评论 -
数仓建模—数据集成
数据集成是数仓的特性,所以数仓需要具备数据集成的能力数据集成它不等价于数据同步平台,数据同步只是数据集成的第一步数据集成的目的是为了打通数据孤岛,从而更好的支持企业的数据决策,数仓打破数据孤岛的方式是将各个业务系统数据集中到一个统一的、集中的 数据仓库,而达到这个目的方式就是数据集成。原创 2024-04-24 08:59:57 · 18 阅读 · 0 评论