数仓(五)-规范化

一、数据质量

正确的:数据的值和描述真实的反映了它需要表达的对象。例如,某一位作者当前居住的城市叫 New Hope,那么,关于家庭地址的数据应该包含正确的城市名称 New Hope。

明确的:数据的值和描述应该是只有一个含义。例如,在美国至少有十个城市叫 New Hope,而在宾夕法尼亚州只有一个城市叫 New Hope。那么,在“精确的”数据中,描述这个城市中的地址是应该包含城市名 New Hope 以及州名称宾夕法尼亚,这样的数据才是“明确的”。
一致的:数据的值和描述用一种不变的标识约定来表达其含义。例如,美国的宾夕法尼亚洲可能在数据中表达为 PA, Penn 或 Pennsylvania。为了满足一致性的要求,关于当前家庭住址的的“精确”数据应该只使用一种约定方式来表达州名称(比如使用全名 Pennsylvania),并且坚持这一种用法。
完整的:
一 要确保数据中为每个实例定义了(不能为空)特定的值和描述,例如,要确保所有应该有当前住址信息的记录实际上确实有值。
二 要确保记录的总数量是完整的,或者确保在整个信息流中没有在任何地方丢失记录。

二、数据评估

结构定义
业务对象

数据源
表定义
别名
数据规则
数据值规则
需要处理的问题
三、审计维、错误事实表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值