数据仓库
文章平均质量分 96
数据仓库设计理论,内容涵盖:数据分层、数据建模、表设计、数据治理等。
Light Gao
大数据领域拥有8年从业经验,专注于大数据平台、分布式计算性能、数据存储以及新技术的研究与应用。目前就职于360数科,一直以来致力于在行业中取得卓越的成就。
展开
-
Flink实时数仓同步:快照表实战详解
在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:原创 2024-02-02 17:24:57 · 1330 阅读 · 0 评论 -
Flink实时数仓同步:流水表实战详解
在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。原创 2024-02-02 17:03:55 · 1129 阅读 · 0 评论 -
数仓日常维护:剖析每日增量同步的内部机制
数仓日常维护:剖析每日增量同步的内部机制原创 2024-01-19 14:16:10 · 884 阅读 · 4 评论 -
深入数仓离线数据同步:问题分析与优化措施
深入数仓离线数据同步:问题分析与优化措施原创 2024-01-19 14:15:29 · 1215 阅读 · 0 评论 -
解码 SQL:深入探索 Antlr4 语法解析器背后的奥秘
解码 SQL:深入探索 Antlr4 语法解析器背后的奥秘原创 2023-11-29 18:30:37 · 1455 阅读 · 0 评论 -
数据治理设计理论
数据治理是一种综合性的、系统性的数据管理过程,旨在确保组织内的数据质量、安全性、可用性和合规性。它涵盖了规划、制定政策、流程、标准以及监督执行这些政策、流程和标准的所有方面。数据治理的目标是建立健康的数据管理体系,使组织能够更好地管理、维护和利用数据资源。原创 2023-07-21 22:36:25 · 399 阅读 · 0 评论 -
数据仓库设计理论
数据仓库是一个用于集成、存储和分析大量结构化和非结构化数据的中心化数据存储系统。它旨在支持企业的决策制定和业务分析活动。原创 2023-07-21 22:26:27 · 3846 阅读 · 0 评论 -
数据仓库发展历史
数据仓库是企业中用于存储、整合和分析数据的关键组件。随着时间的推移,数据仓库经历了三代演化:从需求驱动到平台化、从平台化到智能(AI)化原创 2023-07-21 22:14:40 · 825 阅读 · 0 评论 -
数据仓库表设计理论
数据仓库表设计理论: 数仓顾名思义是数据仓库,其数据来源大多来自于业务数据(例如:关系型数据库),当设计数仓中表类型时(拉链表、增量表、全量表、流水表、切片表)时,应先观察业务数据的特点再设计数仓表结构原创 2023-07-21 21:20:46 · 2617 阅读 · 0 评论