【产品规划】数据质量智能探查

这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开报道存在冲突,应该是问题数据,比如,北京市出租车公开报道是6.6万辆,但接入表数据显示有20多万辆出租车。其它几个问题也是类似的,与网上公布的数值差异较大。参与了近三个月的政府大数据项目,有几个体会:

  • 一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以汇总数据为主,字段内容普遍较少,缺少业务日期、空值、重复数据的情况屡见不鲜,这些浅层次的数据质量问题通过校验规则容易发现;
  • 委办局众多,业务领域分散,数据正确性难以判断。省级的政府波及到上百个委办局,每个委办局的业务系统又有好几个,对接上来的数据除了显性的质量问题容易判断之外,深层次的准确性难以判断,比如,户籍人口数量、医院数量等;
  • 数据清洗无从下手。由于大数据平台处于初建期,数据融合、统一维度还没有开始推进,因此,一旦出现数据项缺失、数据不一致等问题时,数据清洗是巧妇难为无米之炊,实现不了数据的自动较正,数据清洗也就仅限于剔重去空等。

要解决上述几个问题,一方面要提高数据质量检查的智能化程度,通过爬取网上公开报道的各类统计数值,构建政府行业的指标库,通过与公开数据比对,发现接入数据存在的准确性瓿;另一方面要丰富政府行业的标准代码库,通过标准代码库去修正接入数据中相关代码存在的缺陷问题。上述两个指标库和标准代码库,可以通过SAAS的方式对外提供服务,既能提高实施项目的效率,也可以尝试数据运营。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值