![](https://img-blog.csdnimg.cn/2d77dad42f134fb796a9920e84aa2c67.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据仓库
文章平均质量分 96
数据仓库设计理论,内容涵盖:数据分层、数据建模、表设计、数据治理等。
Light Gao
目前执职于360数科,大数据领域拥有8年的从业经验。欢迎关注我的微信公众号“大数据工坊”获取更多专业资讯和交流机会。专注于大数据平台、分布式计算性能、数据存储以及新技术的研究与应用。
展开
-
从数据仓库到数据湖(下):热门的数据湖开源框架
在《从数据仓库到数据湖(下):热门的数据湖开源框架》中,详细分析了市面上热门的开源框架,包括Delta Lake、Apache Iceberg、Apache Hudi和Apache Paimon。这些框架虽然宣称是数据湖解决方案,但在实际使用中仍存在一些不足。文章指出,这些技术产品更像是数据管理中间件,借助于分布式文件系统和计算引擎实现数据的存储和管理功能,尚未完全满足数据湖应具备的能力,如数据抽取、元数据管理和数据分析。文章最后强调了数据湖技术在实际应用中的局限性和改进空间。原创 2024-07-09 15:17:39 · 1370 阅读 · 0 评论 -
从数据仓库到数据湖(上):数据湖导论
在《从数据仓库到数据湖(上):数据湖导论》一文中,详细介绍了数据湖的起源、定义及其与数据库和数据仓库的区别。数据湖由詹姆斯·迪克森于2010年提出,能够存储结构化、半结构化和非结构化数据,具有大容量存储和快速处理多种数据格式的能力。数据湖不仅能保存原始数据,还支持快速查询、数据分析和机器学习,帮助企业更好地挖掘数据价值。它由数据存储架构和数据处理工具组成,是一种综合解决方案,而不是单一产品。文章还对数据湖与数据仓库的不同特性进行了详细对比,阐述了数据湖在现代数据管理中的重要性。原创 2024-07-09 15:09:55 · 1558 阅读 · 1 评论 -
从数据库到数据仓库:数据仓库导论
本文为数据仓库导论,旨在介绍数据仓库的基本理念和应用场景,帮助读者理解数据仓库的重要性及其在企业中的实际应用。原创 2024-06-13 11:12:18 · 1520 阅读 · 0 评论 -
Flink实时数仓同步:快照表实战详解
在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:原创 2024-02-02 17:24:57 · 1405 阅读 · 0 评论 -
Flink实时数仓同步:流水表实战详解
在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。原创 2024-02-02 17:03:55 · 1210 阅读 · 0 评论 -
数仓日常维护:剖析每日增量同步的内部机制
数仓日常维护:剖析每日增量同步的内部机制原创 2024-01-19 14:16:10 · 1072 阅读 · 4 评论 -
深入数仓离线数据同步:问题分析与优化措施
深入数仓离线数据同步:问题分析与优化措施原创 2024-01-19 14:15:29 · 1500 阅读 · 0 评论 -
解码 SQL:深入探索 Antlr4 语法解析器背后的奥秘
解码 SQL:深入探索 Antlr4 语法解析器背后的奥秘原创 2023-11-29 18:30:37 · 1709 阅读 · 0 评论 -
数据治理设计理论
数据治理是一种综合性的、系统性的数据管理过程,旨在确保组织内的数据质量、安全性、可用性和合规性。它涵盖了规划、制定政策、流程、标准以及监督执行这些政策、流程和标准的所有方面。数据治理的目标是建立健康的数据管理体系,使组织能够更好地管理、维护和利用数据资源。原创 2023-07-21 22:36:25 · 498 阅读 · 0 评论 -
数据仓库设计理论
数据仓库是一个用于集成、存储和分析大量结构化和非结构化数据的中心化数据存储系统。它旨在支持企业的决策制定和业务分析活动。原创 2023-07-21 22:26:27 · 4150 阅读 · 0 评论 -
数据仓库发展历史
数据仓库是企业中用于存储、整合和分析数据的关键组件。随着时间的推移,数据仓库经历了三代演化:从需求驱动到平台化、从平台化到智能(AI)化原创 2023-07-21 22:14:40 · 919 阅读 · 0 评论 -
数据仓库表设计理论
数据仓库表设计理论: 数仓顾名思义是数据仓库,其数据来源大多来自于业务数据(例如:关系型数据库),当设计数仓中表类型时(拉链表、增量表、全量表、流水表、切片表)时,应先观察业务数据的特点再设计数仓表结构原创 2023-07-21 21:20:46 · 2775 阅读 · 0 评论