数据治理
文章平均质量分 67
for your wish
好记性不如烂笔头。个人笔记用的博客
展开
-
数据治理指标库
方法:以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。统一指标和维度管理,指标命名、计算口径、统计来源唯一, 维度定义规范、维度值一致。1.2 衍生原子指标 依赖于主原子指标,加衍生词(带计算口径),不含时间范围。1 原子指标:不可再拆分的指标。原创 2024-05-31 16:13:27 · 170 阅读 · 0 评论 -
数据治理之语法治理
指使用left join时,左表的过滤条件没有写在 where 中或写子查询,右表的过滤条件没有写在on里面或写子查询。使用right join时,左表的过滤条件没有写在on中或写子查询,右表的过滤条件没有写在where里面或写子查询。指语句中使用了distinct关键字,建议可用group by语句实现的采用group by来实现。指语句中进行了表关联,但是未指定on关联条件。该操作会导致大量计算,影响代码性能,需谨慎操作。指表关联中使用了full join,建议使用union all优化。原创 2024-05-31 16:10:57 · 231 阅读 · 0 评论 -
数仓建模方法
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,最能够说明数据模型的重要性。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。性能:帮助我们快速查询所需要的数据,减少数据的I/O吞吐,提高使用数据的效率,如宽表。原创 2024-03-25 11:12:39 · 376 阅读 · 0 评论 -
数据血缘实现原理
大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下,数仓的开发者经常需要解决以下问题:面对成百上千张的数据表,不知道该如何关联,也不知道这些表具有什么业务价值执行过长,慢的无法忍受的SQL脚本,却不敢轻易进行整改数据表是否包含机密数据需要被清理,以及这些机密数据是否被转存导致权限放大其实,以上的这些问题都可以统一归类为数据发现问题。原创 2024-03-14 10:27:11 · 373 阅读 · 0 评论 -
ESB服务&数据总线平台介绍
ESB企业服务总线作为集成龙骨满足应用、数据和业务等集成需要,应用集成如统一认证、单点登录等主要实现业务系统间的对接;数据集成如主数据治理和数据分析等,通过ESB实现数据的聚合以及分发;业务集成如业财一体化等,实现企业业务之间的互联互通。在集成的过程中,ESB的作用至关重要,它连接着上下游业务系统,构建了数据集成传输的通道,是企业信息化建设由无序到有序、由散乱到规范、由点对点到总线式的有效工具与手段。ESB企业服务总线在实际项目中主要用于各业务系统之间的集成,集成包括数据集成、应用集成以及业务单据集成。转载 2024-01-12 11:08:01 · 2603 阅读 · 0 评论 -
DAMA-描述性、诊断性、预测性和规定性分析
通过利用机器学习算法和统计模型,公司可以预测销售和需求的波动,识别旺季,优化库存管理,并保持敏捷,以应对不断变化的市场条件。规范分析通过使用优化算法和模拟工具来提高供应链效率,它仔细检查关于库存水平、生产能力、运输物流和市场需求的大量数据,以制定采购、生产和分销战略,这种方法可以降低成本,缩短交货期,并提高供应链的整体绩效。使用诊断分析分析客户流失时,需要仔细检查数据以确定导致客户流失的因素,这涉及对客户行为、反馈和参与度指标进行彻底检查,以发现可能指示客户终止与产品或服务的参与度的原因的模式和趋势。原创 2024-01-09 11:20:14 · 1169 阅读 · 0 评论