数据仓库
文章平均质量分 83
莫叫石榴姐
云淡风轻一轮江月明
展开
-
一种通过构建周期快照事实表优化用户回流、流失统计指标的方法
本文分析了一种通过数仓建模的形式来优化指标计算的方式,针对用户回流及流失这两个指标进行优化,通过对指标的分析,在DWS层构建周期快照事实表,维护用户历史至今末次登录时间周期快照表,简化了指标的计算,提升了性能。原创 2023-02-03 10:59:36 · 791 阅读 · 2 评论 -
数据增量同步方案
每天全量同步如人员表、订单表一类的会发生变化的数据,根据数据仓库的4个特点里的反映历史变化的这个特点的要求,我们建议每天对数据进行全量同步。也就是说每天保存的都是数据的全量数据,这样历史的数据和当前的数据都可以很方便地获得。设定日分区,每天同步全量数据。--全量同步create table ods_user_full( uid bigint, uname string, deptno bigint, gender string, optime DATE原创 2021-09-10 14:58:43 · 3815 阅读 · 2 评论 -
数仓之事实表设计
事实表基础特性 事实表是数据仓库维度建模的核心,与业务紧密相连,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与过程有关的度量。 相对维表来说,通常事实表比维表细长得多,数据行的增加速度也比维表快。 维度属性也可以存储到事实表中,作为“退化维度”。退化维度可以作为事实表的过滤条件,实现聚合操作。主要是为了方便操作和使用,比如物联网数据中轨道电路的状态字段,调整和分路,这两个状态通常用来聚合和过滤。 事实表有三种类型:事务事实表、周期快照事实表、累积快照事原创 2021-09-01 16:43:17 · 1260 阅读 · 0 评论 -
通俗易懂的数仓拉链表设计模式详解
1 技术背景1.1 数据同步场景Hive的主要作用就是构建离线数据仓库,此时就需要定期的不断的从各种数据源同步数据到数据仓库。例如,每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。...原创 2021-08-24 23:48:31 · 774 阅读 · 1 评论 -
数据仓库之数据质量管理
目录第1章 数据质量整体概述1.1 概述1.2. 数据质量标准分类1.3 数据质量管理解决方案第2章 ODS层数据校验2.1 数据校验通用脚本2.2 ODS层各表检验第3章 DWD层数据校验3.1 数据校验通用脚本3.2 DWD层各表检验第4章 DWS层数据校验4.1 DWS层数据质量校验4.2 DWS层数据校验脚本第5章 DWT层数据校验5.1 DWT层数据质量校验方法5.2 宽表校验脚本第6章 ADS层数据校验第1章 数据质量整..原创 2021-08-01 17:46:17 · 2110 阅读 · 1 评论 -
数据质量如何监控
数据质量怎么监控? 如一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值: SQL结果:var 数据量 = select count(*)from 表 where 时间等过滤条件 报警触发条件设置:如果数据量不在[数值下限, 数值上限], 则触发报警 同比增加:如果((本周的数据量 -上周的数据量)/上周的数据量*100)不在 [比例下线,比例上限],则触发报警 环比增加:如果((今天的数据量 - 昨天的数据量)/昨天的数据量*100)不在 [比...原创 2021-08-01 17:09:23 · 1168 阅读 · 0 评论 -
数据建模之宽表模型
1 什么是宽表宽表:从字面意义上讲就是字段比较多的数据库表。(1)通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。(一句话,空间换时间,便于训练迭代、减少表关联数量,修改少量数据时不需要该多张..原创 2021-07-25 20:42:36 · 3862 阅读 · 0 评论 -
数据仓库模型设计及实施方法
1 数仓的分层(1)如何分层?ODS层:原始数据层,存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理DWD层:数据明细层:结构和粒度保持原始表一致。主要作用是对ODS层数据进行清洗(去除空值NULL,脏数据,超过极限范围的数据如9999),当然也包括对原始解析处理,如串值的展开,json的解析等DWS层:数据汇总层或数据服务层:依赖于DWD层数据,按天粒度进行汇总DWT层:数据主题层:以DWS层为基础,按主题进行汇总。ADS层:为各种展示及统计报表提供数据。(2)为什么原创 2021-05-09 21:15:39 · 1654 阅读 · 0 评论 -
数仓ETL(shell+sql)按天、周、月、季度汇总统计代码开发模板
数仓ETL统计的时候,我们往往需要对数据进行按天、周、月、季度等几个时间维度进行批量统计。一般的开发模式都为shell中套sql的形式,这样我们可以根据定时任务跑shell脚本,同时利用shell编写一些函数来代替SQL中的存储过程。本文中的天、周、月、季度的时间维度,也是利用shell中的时间函数进行计算,这样降低了sql开发的难度,代码可维护性更高。原创 2020-10-24 23:55:03 · 1815 阅读 · 0 评论 -
数据仓库之开发规范详解
为了避免底层业务变动对上层需求影响过大,屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层呈现业务数据,建设高内聚松耦合的数据组织,使数据从业务角度可分割,显得尤为重要。从整个集团业务条线出发,形成数据仓库总体概念框架,并对整个系统所需要的功能模块进行划分,明确各模块技术细节,建设一套完整的开发规范原创 2020-07-09 14:33:50 · 2044 阅读 · 0 评论