数据治理之数据质量校验

	随着大数据越来越流行,越来越多的公司建了自己的数据仓库、数据湖或者湖仓一体。但是随着数据量越来越多,数据管理就出现了问题,就需要做数据治理。关于数据治理是一个很大的课题,下面我从数据质量校验谈谈我的看法。

首先,数据质量校验分为6部分,准确性,完整性,一致性,唯一性,规范性,时效性。

准确性:

表现在数据与目标特征之间的差异程度

1.数据的值域约束,即数据的取值应在其值域范围内(具有业务意义的连续范围)【数据值域约束】
2.数据的规则约束,是指业务上、技术上对于不用数据项间的相互校验关系,可以是等值校验,也可以为不等值校验【数据规则约束】
如:合同到期日期应大于开始日期,交易金额 = 交易单价 * 交易数量,不满足则说明不符合数据质量准确性标准
3.代码数据存在于代码列表【代码取值约束】

完整性:

表现在数据的缺失程度

1.数据无值,即NULL【非空约束】
​2.数据虽有值,但其值为无意义的空格或特殊字符【非法值约束】
3.记录缺失,即目标表中的记录数少于源系统中的记录数【记录缺失】
4.数据保存历史周期不满足要求【数据保存周期】
如:员工的完整信息中,应当包含婚姻状态。婚姻状态为null,则说明不符合数据质量完整性标准。

一致性:

表现确保数据在多种数据仓库、应用软件、系统等各种场景中均保持一致

1.数据引用约束,即通常所说的参照完整性(数据引用约束)主外键
2.同一个数据项在系统间或系统内部流传,该数据项的信息保持一致(数据流转约束)数据同步
如:账户中的客户编号在客户信息中不存在,则说明不符合数据质量一致性标准。

唯一性:

表现是保证在一个字段或者一组字段里的数据与表中其他行的数据相比是唯一的。

主键唯一性约束,是指一个唯一标识只能属于一个个体。【主键唯一约束】

规范性:

表现在数据格式的规范程度

1.数据长度要求:即对数据长度的约束【长度约束】
​2.数据精度要求:即对数据精度的约束【精度约束】
​3.数据格式要求:即对数据中各位取值的约束,如日期的格式(格式约束)
​ 如:合同到期格式为YYYY-MM-DD,不符合改格式说明不符合数据质量规范性要求

时效性:

表现在是否能够在数据需求定义要求的期限内获得最新的数据,或者要求的更新频率刷新数据值

1.数据获取的时间是否在指定时间窗口内【获取时间约束】
2.数据获取的频率是否在指定的频率范围内【获取频率约束】
3.系统处理是否满足及时性要求【系统更新及时性约束】
​ 如:RWA要求至少每月计算一次,低于改频率则说明不符合数据质量及时性标准。
以上就是目前我对数据质量校验的理解,做到以上6点,数据的问题就会减少很多。数据治理是一个耗时耗力的大工程,需要不断地投入人力物力,持续不断地改进,才能做好。

  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据治理是指通过一系列的策略、流程和技术手段,对企业的数据进行有效管理、保护和优化,以确保数据质量、一致性和安全性。数据治理的一个重要环节是规则校验,即通过编写和执行SQL语句,校验数据是否符合预先设定的规则和要求。 规则校验SQL是用来检查数据是否符合特定规则的查询语句。它可以用于验证数据的准确性、完整性、一致性以及合法性。规则校验SQL可以基于企业的业务需求和数据治理策略,设置不同的规则,如数据格式规则、唯一性规则、逻辑关系规则等。 在进行规则校验时,首先需要明确要校验的规则和数据表,然后编写相应的SQL语句来查询数据并进行校验。例如,要验证某个字段的长度不能超过指定值,可以编写一个类似于以下的SQL语句: SELECT * FROM table WHERE LEN(column) > maxLength; 如果查询结果返回了任何记录,则表示该字段长度超过了规定的最大长度,需要进行进一步处理。 另外,规则校验SQL还可以用于检查数据的一致性。例如,要确保两个表之间的关联字段具有相同的值,可以编写一个类似于以下的SQL语句: SELECT * FROM table1 INNER JOIN table2 ON table1.column = table2.column WHERE table1.column IS NULL OR table2.column IS NULL; 如果查询结果为空,则表示两个表之间的关联字段具有相同的值,否则则表示数据存在不一致的情况,需要进行进一步处理。 综上所述,规则校验SQL在数据治理中起着重要的作用,通过编写和执行SQL语句,可以有效验证数据质量、一致性和合法性,帮助企业实现数据治理目标。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值