▼数据仓库
文章平均质量分 92
最后,还是决定以数据仓库作为发展的方向,不忘初心,方得始终。
寒 暄
自渡
展开
-
数仓理论知识之杂谈
数仓痛点数据仓库的三个阶段第一阶段使用大量成熟的开源框架,主要以离线批处理为主,外围系统自研能力较弱,数据量和集群资源较少。第二阶段使用开源+自研方式,有自己的方法论与建模体系,有比较完善的元数据管理,数据质量查控,可以满足离线实时需求。第三阶段有自研的一站式大数据处理平台,有完善的数仓理论基础与外围工具,有完善的共享机制与权限管理。数据痛点临时取数需求占用数仓人员大部分时间数据规范与流程不一致,跨部门合作困难指标口径不一致导致数据可信度下降数仓模型数仓规范外围系统建设原创 2020-09-08 16:57:56 · 908 阅读 · 0 评论 -
数仓理论知识之数仓命名规范
数据分层数据运营层:ODS(Operational Data Store)ODS层,最接近源数据层,为了考虑后续数据追溯,这一层不建议做过多的数据清洗工作,最好原封不动的接入原始数据。数据仓库层:DW(Data Warehouse)数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,要从ODS层提取数据建立各种数据模型,DW层又细分为DWD层,DWM层和DWS层。DWD(Data Warehouse Detail)DWD层要做的是将数据清理、整合、规范化、脏数据、垃圾数据、规范不一致的、状原创 2020-07-28 15:03:40 · 6668 阅读 · 0 评论 -
数仓理论知识之调研计划准备
调研计划调研内容调研对象调研时间调研地点需求调研对领导层调研问题领导层目前的工作重点有哪些和此主题相关,和哪几个指标相关?领导层最关心哪几个指标?针对这些指标,领导层目前采用何种获取方式?针对这些指标,领导层目前都进行哪些分析,采用何种分析手段,采用哪些方法?目前情况下,针对这些指标都有哪些展现方式?领导层对数据仓库的期望是什么?领导层希望决策分析系统能提供哪些分析功能?领导层希望以何种方式来看这些指标?领导层希望对这些指标进行哪些方面原创 2020-07-27 14:14:21 · 205 阅读 · 0 评论 -
数仓理论知识之数据模型
数据模型是数仓的核心。数据模型决定数仓的续航。数据模型的设计应该预测未来业务的发展。主要讨论维度建模方式。数据模型1. 基本概念维度建模是数据仓库大师Ralph Kimball提出的,同时也是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。它是面向分析的,为了提高查询性能可以增加数据冗余,反规范化的设计技术。1.1 事实表事实表产生于业务过程,存储原创 2020-07-08 11:33:41 · 671 阅读 · 0 评论 -
数仓理论知识之什么是度量,什么是粒度,什么是事实,什么是维度
度量度量是业务流程节点上的一个数值。比如销量,价格,成本等等。粒度粒度就是业务流程中对度量的单位,比如商品是按件记录度量,还是按批记录度量。事实在《数据仓库工具箱》一书中对事实的定义是:事实涉及来自业务过程的度量,基本都以数量值表示。一个事实表行与粒度存在一对一关系。比如上班时长表(上班时间,加班时间),上班时间可以拆分成签到时间,签退时间形成一个维度表,加班时间就是一个数值,加了几个小时的班是一个度量。简单来说事实就是业务流程中的一条业务,是一个度量集,他按照粒度的划分包含着度量,连接原创 2020-09-11 16:35:15 · 7624 阅读 · 0 评论