大数据
文章平均质量分 95
程序员xiao_明
coding the world.
展开
-
数据治理——技术角度分享
前言:在数据治理领域的文章大多都是从业务角度进行切入,本文从纯技术角度切入,介绍了数据血缘关系的图分析思路、领域建模层面构建中间层的思路。以及纯粹从词法分析和语法分析的统计学层面维度。图视角受益之前在招商银行的担保圈项目启发,将对于图的分析观点带入到数据治理当中来。我们在DW中获取到数据的血缘关系表schema如下所示(血缘数据见附件,此处仅选取几块关键指标):src_guiddst_guidedge_typenode_idsprocess_typemain_table_flag.原创 2021-06-03 16:47:04 · 724 阅读 · 0 评论 -
数据仓库开发常见问题(ETL基于Airflow)
关于数据仓库数仓的分类元数据数仓的分类其实严格来说,数仓是不存在分类的。只需要注意的是是,沉淀到数据集市的标满足数据表设计的第三范式即可。第一范式:表中的列含有原子性的值。第二范式:满足第一范式,没有部分依赖。第三范式:满足第二范式,不存在传递依赖性。元数据我们在操作数据仓库时,操作的都是元数据,而元数据分为技术元数据和业务元数据。 技术元数据:指数据仓库开发、管理、维护相关的数据,描述了数据的原信息,转换描述、数据映射、访问权限等; 业务元数据:为管理层和业务分析人员服务,从业务的原创 2021-01-17 21:12:09 · 961 阅读 · 0 评论