![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
问道2020
这个作者很懒,什么都没留下…
展开
-
元数据管理的价值
元数据管理到底有什么用?举例:图书馆的目录卡片就是一个很简单的元数据管理,在企业中,元数据管理会更为全面,难度更高,同时也将带来更多的收益:元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地原创 2021-01-24 23:07:54 · 800 阅读 · 0 评论 -
数据倾斜以及处理
数据倾斜的直白概念:数据倾斜就是数据的分布不平衡,某些地方特别多,某些地方又特别少,导致的在处理数据的时候,有些很快就处理完了,而有些又迟迟未能处理完,导致整体任务最终迟迟无法完成,这种现象就是数据倾斜。针对mapreduce的过程来说就是,有多个reduce,其中有一个或者若干个reduce要处理的数据量特别大,而其他的reduce处理的数据量则比较小,那么这些数据量小的reduce很快就可以完成,而数据量大的则需要很多时间,导致整个任务一直在等它而迟迟无法完成。跑mr任务时常见的reduce的进度原创 2021-01-21 18:44:56 · 345 阅读 · 0 评论 -
为什么要建设数据指标字典
**指标越来越多可能会暴露什么问题?相同口径指标名称不一致?指标口径描述不清晰,复用难?指标名难理解?计算逻辑不清晰?指标开发后,长时间遗忘,暴露出数据问题后增加解决问题的时间?如何解决:对指标进行全局梳理,输出企业的指标字典。最后形成一个全局业务口径一致的指标字典。让使用指标的人,可以通过指标字典,快速了解指标的业务含义和计算过程,不会对指标口径产生歧义。前期可以使用Excel作为指标管理的工具,按业务域、指标标准名称、BI展示名称、业务口径、所关联的报表、指标负责人、可分析的维度、业务含义、计算逻辑等原创 2021-01-14 20:15:17 · 576 阅读 · 0 评论 -
如何提高数据质量
要想提升数据质量,最重要的就是“早发现,早恢复”:早发现,是要能够先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为“早恢复”争取到了大量的时间。早恢复,就是要缩短故障恢复的时间,降低故障对数据产出的影响。那具体如何做到这两个早呢?我总结了一套数据质量建设的方法,包括这样几个内容。添加稽核校验任务在数据加工任务中,对产出表按照业务规则,设计一些校验逻辑,确保数据的完整性、一致性和准确性,这是提升数据质量最行之有效的方法。通常建议你在数据产出任务运行结束后,启动稽核校验任务对数据原创 2021-01-12 21:40:07 · 2658 阅读 · 0 评论 -
如何衡量数据模型复用度
数据中台模型设计的核心是追求模型的复用和共享,通过元数据中心的数据血缘图,我们可以看到,一个比较差的模型设计,自下而上是一条线。而一个理想的模型设计,它应该是交织的发散型结构。用模型引用系数作为指标,衡量数据中台模型设计的复用度。引用系数越高,说明数仓的复用性越好。模型引用系数:一个模型被读取,直接产出下游模型的平均数量。比如一张 DWD 层表被 5 张 DWS 层表引用,这张 DWD 层表的引用系数就是 5,如果把所有 DWD 层表(有下游表的)引用系数取平均值,则为 DWD 层表平均模型引用系数原创 2021-01-11 20:14:35 · 1808 阅读 · 0 评论 -
基于Flink+Hive+Kafka的流批一体数仓实践--04Kafka_Sink_Kafka_DWD_OrderFull
Flink采用HiveCatalog作为表元数据持久化的介质。对于同时部署了Hive和Flink的公司来说,可以方便管理元数据,而对于只部署了Flink的公司来说,HiveCatalog也是Flink唯一支持的元数据持久化的介质。不将元数据持久化的时候,开发过程中的每个地方都需要使用DDL重新将Kafka等数据源的数据注册到临时的Catalog中,浪费了很多精力和时间。利用ODS的订单详情和订单明细数据进行操作。DWD层直接上代码import java.time.Durationimport org原创 2021-01-10 20:44:48 · 363 阅读 · 0 评论 -
什么才是一个好的数据模型设计
来看一组数据,这两个表格是基于元数据中心提供的血缘信息,分别对大数据平台上运行的任务和分析查询(Ad-hoc)进行的统计。离线调度任务/表统计一周内Ad-hoc 查询统计下图是数仓分层架构图,方便你回忆数据模型分层的设计架构:我们首先来看表 1。表 1 中有 2547 张未识别分层的表,占总表 6049 的 40%,它们基本没办法复用。 重点是在已识别分层的读表任务中,ODS:DWD:DWS:ADS 的读取任务分别是 1072:545:187:433,直接读取 ODS 层任务占这四层任务总原创 2021-01-09 21:56:19 · 726 阅读 · 0 评论