数据治理复盘

数据治理哪些问题:一般分类为格式问题,缺失问题,数据重复,逻辑问题,关联性验证问题
以银行数据仓库来举例,复盘数据整个生命周期的治理
数据生命周期:指数据录入采集到数据的应用消亡
数据仓库的架构:源系统 --> ODS --> 数据仓库(主题层,共性加工层)–> 集市

  1. 源系统 --> ODS:数据抽取,清洗,加载的过程。

数据来源可以是直接从数据库抽取,文本文件,excel文件等,不同来源的数据文件需要进行清洗转换后才可以存储到数据仓库中。数据清洗的过程中就会碰到很多杂七杂八的数据,面对格式问题,缺失问题,数据重复,逻辑问题,关联性验证问题应该怎么处理?
格式问题:经常会碰到字段中有空格,数字中有字母,日期格式不一致等问题,去除空格修正数据,转换格式
缺失问题:从重要性和缺失率两方面考虑,重要性高缺失率低:根据经验,业务知识进行估值补全,重要性低缺失率高影响不大可以直接去
除,重要性高,缺失率高的情况从其他渠道进行补全,重要性低缺失率低可以保留不做处理,也可以进行简单的补全。
逻辑问题:同源系统,业务进行沟通确认口径,才能判断下一步应该如何走。
数据重复问题:去除
关联性问题:表间关系,模型开发的重点哦~ (做个贷模型,贷款粒度的,需要有合同,有客户,有产品等这些主题之间需要有关联)

  1. ODS – > 数据仓库 :数据存储,模型加工(主题层,共性加工层)。

主题层: 机构 资产 财产 产品 营销 渠道 产品 当事人 协议 事件
便于理解:
银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),在进行买卖,存贷款的时候需要签合同,这就是协议,整体这个交易就是事件,从而对银行的财务,资产产生影响。

根据不同主题进行建模,属于维度建模(星型建模)
建立模型就需要有统一的标准,可以让使用者看到名字就知道是那个层级的,是做什么的,要做到见名知意,这就涉及到命名规范,同时也需要针对格式问题,缺失问题,数据重复,逻辑问题,关联性验证问题进行进一步的处理。

共性加工层:更贴近于业务,建模会有更多的汇总,计算,统计的情况,一般用雪花模型,和主题层的处理大同小异。

数据仓库 – >数据集市:集市的数据来源是数据仓库,基于数据仓库进行取数分析,报表开发等,面对的是业务,产品。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值