
一文速学-数据仓库从零搭建指南
文章平均质量分 95
订阅后永久可看,长期维护持续更新。该专栏详细介绍作为一名数据仓库开发工程师应该如何从一名新手快速进化到成熟数开工程师,专栏涵盖大数据开发、数据仓库搭建、全套技术栈资料等必知必会的技术知识。
fanstuck
曾世界百强私企大数据工程师,现任国企高级人工智能算法工程师,工作与研究方向为大数据开发和人工智能,个人喜欢研究技术和算法,博客热衷分享实用项目和技术干货。MCM/ICM Meritorious Winner,APMCM second prize,SCI二区一篇,软著五项专利一项,中国互联网+创新创业大赛省金国铜,全国计算机设计大赛省二国三,全国数统三等。总计省级奖项以上23项,热衷分享喜欢原创~关注我会给你带来一些不一样的认知和成长。
展开
-
数据开发/数仓工程师上手指南(七)CDM-DWS层搭建规范及流程
进入到了CMD公共数据层的结尾最后一层-DWS层了,该层基本就是直接与业务强关联,也就是说产品提出的需求,或是报表、用户画像统计好还是数据大屏都是在这一层给处理好数据,再放入ADS层,然后我们只需要在BI里面配备对应的数据源即可,因此可以说DWS层这一层建模是否清晰明了,简单易建是检验我们ODS层和DWD,DIM层建模的好坏。一般我们也可以从DWS这一层,也就是需求侧结果出发来逆向推理我们需要建立的ODS和DWD层,总之DWS层需要我们仔细琢磨,需要上生产的东西一定得小心再小心。原创 2024-08-06 08:48:55 · 1371 阅读 · 0 评论 -
数据开发/数仓工程师上手指南(六)CDM-DWD层搭建规范及流程
前言这次想聊点出工作技术方面外的内容,DWD该层在写CDM层的时候就提及很多次了大差不差,近期让我感悟较多的话那是那句宁愿犯错也不愿意什么都不做,说这句话如果能够做到,那么执行力也远超过其他人,能力和远见也会在历练中得到充分的成长。但是这也是要区分领域来说,一般我认为这句话的适用程度在自己的技术工作领域上面,可以去尝试换个技术,换个主题或者是从事新的第二事业,而不是在目前大环境下面去犯错,因为现在给你的容错机会极少,凡事还是要注意量与度。好了废话不多说,现在开始DWD层的数据建模。明细粒度事实层(DWD)在原创 2024-08-02 15:49:25 · 1363 阅读 · 0 评论 -
数据开发/数仓工程师上手指南(五)CDM-DIM层搭建规范及流程
CDM层,即Common Data Model层,是数据仓库中的核心层次,它定义了数据仓库中使用的共同数据结构和业务规则。CDM层提供了一个统一的视图,将不同的数据源和数据格式映射到一个通用的模型中,使得数据分析人员可以更容易地进行数据整合和分析。公共维度层(DIM):基于维度建模理念思想,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一一对应。原创 2024-08-01 10:57:59 · 1324 阅读 · 1 评论 -
数据开发/数仓工程师上手指南(四)ODS层搭建规范及流程
此系列的前三篇文章已经将整个数据仓库的所有构建逻辑流程讲的十分清晰,等于是我们已经把框架搭建好了,接下来就是填充框架内各个组件层级的内容了。我们已经将数据仓库分为三层,分别是ODS数据引入层、CDM数据公共层和ADS数据应用层,现在我们需要根据业务来逐渐将这三个层面给丰富起来。首先由下到上需要先构建ODS层,那么本章内容我们就来了解ODS数据引入层的搭建规范和对应需求业务的搭建流程。原创 2024-07-31 11:04:15 · 1373 阅读 · 6 评论 -
数据开发/数仓工程师上手指南(一)数仓概念总览
数据库设计用于支持日常业务操作和事务处理。数据结构高度规范化,注重数据的一致性和实时性。优化事务处理性能,处理频繁的读写操作。数据仓库设计用于支持数据分析和决策支持系统。数据结构非规范化,存储大量的历史数据。优化查询性能,支持复杂的多维分析和大规模数据处理。数据库(Database)数据仓库(Data Warehouse)面向事务分析数据类型细节、业务综合、清洗过的数据数据特点当前的、最新的历史的、跨时间维护目的日常操作长期信息需求、决策支持设计模型。原创 2024-07-24 14:31:07 · 3198 阅读 · 13 评论 -
数据开发/数仓工程师上手指南(二)数仓构建分层概念
度量是用于量化业务活动的关键数据点,通常是数值型的,可以进行汇总和分析。度量回答了业务过程中的“多少”或“多少次”的问题,如销售金额、订单数量、库存水平等。比如。原创 2024-07-26 09:00:57 · 1003 阅读 · 1 评论 -
数据开发/数仓工程师上手指南(三)数仓构建流程
定义关键绩效指标与业务用户和管理层讨论,确定需要在数据仓库中跟踪的KPI。常见KPI招标项目数:总数、按月分布等。投标公司数:总数、每项目投标公司数等。中标率:按项目、按公司等。平均投标时间:从公告发布到投标截止的时间。评标时间:从投标截止到评标完成的时间。定义维度和构建总线矩阵(Bus Matrix)是数据仓库设计中非常重要的步骤,特别是在多个数据域之间保持一致和统一。维度是描述业务过程上下文的信息,帮助我们理解和分析事实数据,可以先构建通用维度,再构建详细定义维度。原创 2024-07-29 10:06:22 · 1521 阅读 · 3 评论