数据探查

本文探讨了数据探查的重要性,旨在理解数据形态,检查数据可靠性,发现潜在问题和风险,为项目决策提供依据。内容涉及源表的主键重复、空值异常统计、关联关系、数据格式和增量规则等,通过字段和表探查方法,结合ER图来构建数据探查报告。
摘要由CSDN通过智能技术生成

概念

了解数据形态,探索数据是否可靠,找出潜在问题与风险,并为开发提供指导。如果当前数据质量无法支撑需求实现,寻求新的替代方案或项目回退。

内容

  • 源表数据主键字段重复数。
  • 源表字段空值/异常值的统计数。
  • 源表之间关联关系。
  • 源表字段的数据格式。
  • 源表增量规则。

探查方式

字段探查

// 数据探查
select	count(*)													as `总行数`
		,sum(decode(col, null, 1, 0))  								as `空值个数`
		,round(sum(decode(col, null, 1, 0)) / count(*), 2)  		as `空值比例`
		-- 小数据量非重复值数目查询
		,count(distinct col) 										as `唯一个数`
		-- 非重复值的近似数目,5%标准误差
		,approx_distinct(col) 										as `唯一个数` 
		,min(col)  													as `最小值`
		,max(col)  													as `最大值`
		,round(avg(col), 2)         								as `均值`
		,median(col) 												as `中位数`
		-- 小数据量分位数查询
		,percentile(col, 0.01) 										as `1%分位数`
		,percentile(col, 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值