概念
了解数据形态,探索数据是否可靠,找出潜在问题与风险,并为开发提供指导。如果当前数据质量无法支撑需求实现,寻求新的替代方案或项目回退。
内容
- 源表数据主键字段重复数。
- 源表字段空值/异常值的统计数。
- 源表之间关联关系。
- 源表字段的数据格式。
- 源表增量规则。
探查方式
字段探查
// 数据探查
select count(*) as `总行数`
,sum(decode(col, null, 1, 0)) as `空值个数`
,round(sum(decode(col, null, 1, 0)) / count(*), 2) as `空值比例`
-- 小数据量非重复值数目查询
,count(distinct col) as `唯一个数`
-- 非重复值的近似数目,5%标准误差
,approx_distinct(col) as `唯一个数`
,min(col) as `最小值`
,max(col) as `最大值`
,round(avg(col), 2) as `均值`
,median(col) as `中位数`
-- 小数据量分位数查询
,percentile(col, 0.01) as `1%分位数`
,percentile(col, 0