数仓
文章平均质量分 79
三石先生已存在
这个作者很懒,什么都没留下…
展开
-
数仓数据质量管理
一.数据资产等级划分1.等级定义根据“当数据质量不满足完整性、准确性、一致性、及时性时,对业务的影响程度大小”来划分数据的资产等级。毁灭性:数据一旦出错,会引起巨大的资产损失,面临重大收益受损等。标记为L1全局性:数据用于集团业务、企业级效果评估和重要决策任务等。标记为L2局部性:数据用于某个业务线的日常运营、分析报告等,如果出现问题会给该业务线造成一定的影响或影响其工作效率。标记为L3一般性:数据用于日常数据分析,出现问题的带来的影响很小。标记为L4未知性质:无法追溯数据的应用场景。标记为转载 2021-05-11 17:19:21 · 690 阅读 · 0 评论 -
怎们保障企业数据仓库中的数据质量
(1)数据基础建设想要一个高质量的数据仓库,首先从数据仓库的设计上,我们就得有一个主题域完善,层级分明(通常分为ODS贴源层,DWD明细层,DWS汇总层,数据应用层),且数据消费场景明确,数据加工链路清晰的数据仓库体系。(2)数据处理监控通过数据血缘关系管理,监控并定位数据处理链路上出现问题的执行节点,及时通知到相应的负责人。(3)业务系统调整响应一是新增业务模块,导致有新的数据需要及时接入到数据仓库中二是业务模块变更,导致数仓中某些指标的历史统计口径发生了改变无论是哪一种,除了借助相应的发布转载 2021-05-11 16:42:40 · 319 阅读 · 0 评论 -
浅谈数据湖与数据仓库
1.什么是数据湖呢? 其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为了处理大数据量,擅长处理非结构化数据。 我们通常会将所有数据移动到数据湖中不进行转换。数据湖中的每个数据元素都会分配一个唯一的标识符,并对其进行标记,以后可通过查询找到该元素。这样做技术能够方便我们更好的储存数据。2.什么是数...原创 2020-03-26 23:04:11 · 341 阅读 · 0 评论 -
数仓分层架构
1 分层实现数据仓库一般分为三层,自上而下分别为数据贴源层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。1.1 ODS层(数据贴源层)贴源层,与业务库保持一致,不做任何处理1.2 CDM层(数据公共层)数据公共层CDM(Common Data Model,又称通用数据模型层),包括DIM维度表、DWD,DW和DWS,由ODS层数据加工而成。主要完成数据加工与整转载 2021-04-14 18:03:01 · 1677 阅读 · 0 评论 -
数据质量那些事
1 基本概念数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益2 影响因素数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据转载 2021-04-14 17:50:07 · 149 阅读 · 0 评论 -
元数据管理
1.概述元数据通常定义为”关于数据的数据”,元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。元数据打通了源数据、数据仓库、数据应用,记录数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,可以极大的提升工作的效率。2.元数据定义将元数据按用途的不同分为两转载 2021-04-14 17:08:00 · 550 阅读 · 0 评论