自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据仓库之DIM层

一、属性与度量在介绍维表之前,我们首先要明白一点属性与度量的区别。属性是指是对象的性质或特性,它因对象而异,或随时间而变化,比如姓名和年龄。姓名因人而异,年龄会不断变化。而度量是对属性的标量刻画。并且度量具有统计意义,而属性并不具有统计意义,比如25岁的我在超市买了1瓶300ML农夫山泉,花了2元。这里的1瓶和2块就是对我买水的这个业务过程的度量。超市是(地理维度)属性,25岁是描述实体的属性,300ML是描述农夫山泉的属性。所以我们可以通过2个点来区分属性和度量,1.是否具有统计意义,2.是否会随..

2022-01-30 13:43:21 7491 1

原创 数据仓库之数据质量管理

数据质量建设的意义,在于数据质量问题的解决和保障数据质量。通过成立数据质量管理组织,明确成员的职责以及分工。建立基于数据仓库质量问题定义、发现、分析、反馈、整改的闭环流程。最后通过抓手将数据质量与kpi考核挂钩,提升每一个人的数据质量意识。1.数据质量定义数据质量主要是指数据满足使用需要的适用程度。这一般可以从以下四个方面进行评估。准确性准确性是指数据的信息和数据是否准确,是否存在异常或者错误的信息。比如说下单金额为负数,转化率大于1等等,这种一看就说明数据不准。一致性一致性是指同一

2022-01-06 16:28:32 1468

原创 数据仓库之DWD层

DWD(Data WareHouse Detail)数据明细层,主要是将从业务数据库中同步过来的ODS层数据进行清洗和整合成相应的事实表。事实表作为数据仓库维度建模的核心,需要紧紧围绕着业务过程来设计。在拿到业务系统的表结构后,进行大概的梳理,再与业务方沟通整个业务过程的流转过程,对业务的整个生命周期进行分析,明确关键的业务步骤,在能满足业务需求的前提下,尽可能设计出更通用的模型。业务方有时只仅仅只是考虑了当下的情况。例如业务想要一个审核通过人员的明细数据,我们设计了一个全量的审核明细表,过了几天,业务

2022-01-02 23:17:23 7567 2

原创 数据倾斜常见原因和解决办法

数据倾斜在MapReduce编程模型中十分常见,多个节点并行计算,如果分配的不均,就会导致长尾问题(大部分节点都完成了任务,一直等待剩下的节点完成任务),本文梳理了常见的发生倾斜的原因以及相应的解决办法。1.map端发生数据倾斜产生原因: 读取数据时,上游文件大小分布不均,存在大量小文件。导致在读入数据时读小文件的maptask很快结束了,而读大文件的maptask进度可能进度才刚开始。 map端做聚合的时候,由于数据存在大量的count distinct,我们通过combin..

2021-12-25 16:02:59 4216

原创 数仓cube表的调优策略

cube表调优在数仓当中是经常遇到,这里给出常见的调优方式和策略。其实就是拿sql的复杂度来换时间。如果需要快速响应的OLAP,可以参考Kylin等组件。1. 避免不必要distinct在统计时我们可能需要统计订单数,用户数等等,这个时候我们应该要明确表的最细粒度是什么,例如订单表的最细粒度是订单id,对于以最小粒度为统计目标的指标,我们并不需要加distinct去重。需要注意的是每增加一个distinct,我们的数据量在map阶段就会增加一倍,而这些膨胀的数据后会通过网络传输到reduce,必然会造成

2021-12-21 23:45:33 393

原创 数据仓库--DWM层

DWM(Data WareHouse Middle)数据中间层,该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。一般而言,针对dwm层的设计开发是建立在,积累一定数量DM和APP相关需求后,将设计到重复的指标和维度下沉到DWM的表中,因此在数仓建立初期,可能会有直接跳过DWM来开发的情况,但是随着相似的需求不断的增加,DWM的开发势在必行,而到了这种时候,我们可以以历史需求为参考,思考那些指标和维度是业务真正需要的,从而设计相应的表,避免开发大量

2021-12-18 10:58:01 3274

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除