数据存储与管理方案
文章平均质量分 92
分享工作和行业遇到的数据仓库(离线&实时)、数据中台、数据湖的经验和知识
Impl_Sunny
这个作者很懒,什么都没留下…
展开
-
数据中台从规划到落地的不同阶段
系统都是为应用而生的,数据中台也不例外。要构建一套数据中台服务于企业内部和外部运营,需要有成熟的建设方法论作为指导。数据中台建设方法论可分为高阶规划、系统设计、开发实施、试运行和持续运营 5 个阶段。原创 2023-07-20 11:30:09 · 1033 阅读 · 0 评论 -
基于宽表的数据建模应用
依然是经典数仓表和一层宽表存储相近的情况下,经典数仓中需要使用explode等函数进行的复杂计算场景,在宽表中绝大部分需求通过count、sum即可完成,因为宽表会将业务指标下沉,复杂字段拆分打平,虽然行数变多了,但避免了explode,get_json_object等耗时操作,查询性能极高。在同一主题内,建设宽表时将维度表join到事实表中后,事实表列变多,原以为会增加一些存储,结果经过列式存储中按列的高效压缩和编码技术,降低了存储空间,在生产实践场景中,发现存储增加极少。原创 2022-09-14 15:29:03 · 1015 阅读 · 0 评论 -
数据血缘全方位理解&实施指南
假设一个任务实际的输入和产出与血缘中该任务的上游和下游相符,既不缺失也不多余,则认为这个任务的血缘是准确的,血缘准确的任务占全量任务的比例即为血缘准确率。准确率是数据血缘中最核心的指标,例如影响范围告警,血缘的缺失有可能会造成重要任务没有被通知,造成线上事故。转载 2022-09-08 16:54:12 · 9717 阅读 · 0 评论 -
【数据中台】数据中台架构搭建百科全书
0、前言当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,以中台事业部集中数据搜索,技术及产品,数据共享等多个部门的功能。其他组织或企业建设数据中台不一定需原创 2021-11-17 10:18:31 · 7760 阅读 · 3 评论 -
Data Lakehouse (湖仓一体) 到底是什么
0、背景Data Lakehouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。0.1 目前数据存储的方案一直以来,我们都在使用两种数据存储方式来架构数据:数据仓库:主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。 数据湖:存储任何类型的数据,包括像图片、原创 2021-10-25 16:52:35 · 7631 阅读 · 0 评论 -
关于数据仓库、数据湖、数据平台和数据中台的概念和区别
一、数据仓库数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。1.1 优势(作用)数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰原创 2021-11-09 11:44:07 · 3015 阅读 · 0 评论 -
【数据仓库】数仓到底要分多少层
0、前言初学数仓的同学都喜欢问一个很有意思的问题:数据仓库到底要分几层?我一般的回答都是:你想分几层就分几层。很显然,虽然我是很认真的在回答,但是提问题的人会感觉非常不认真。还是完完整整的阐述一下数仓分层的基础逻辑吧。一、分层的意义想要知道数仓要分几层,那就必须得先回答另一个问题:就是数据仓库为什么要分层?分层思想到底是在干什么? 直接上结论:分层是为了解耦。请把这句话刻在脑子里。因为这决定了你的数据架构到底要分几层。我们直接读取数据源出报表不行么?行!但是你的前台业务、中间...原创 2021-10-15 09:48:57 · 5909 阅读 · 0 评论 -
【科普】数仓基础知识的概括
一、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:二、数原创 2021-09-27 09:45:36 · 727 阅读 · 0 评论 -
【数据中台】数据模型无法复用,归根结底还是设计问题
0、前言如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求.原创 2021-10-11 10:24:15 · 694 阅读 · 0 评论 -
【数据仓库】数仓中慢变维和快变维设计
0、前言数据仓库中的事实表总是在变化中,通常是新的业务数据不断装载入DW。事实表数据的增加是正常现象,也无需特别处理。但很多时候维度表的数据也会发生变化,且维度表的数据变化会导致维度表和事实表的关系发生变化。因此对于维度变化,该如何设计维度表,是本文要讨论的问题。例如一个订单事实表和一个客户维度表,每个订单有一个对应的客户。在今年5月17日之前,客户维度表中某客户的类别是corporate,5月18日变化为了retail。很显然统计5月的订单数据时,我们希望得到的客户类型即有corporate,也有原创 2021-10-09 15:20:54 · 541 阅读 · 0 评论