【产品规划】数据质量智能探查

最新推荐文章于 2024-04-16 10:25:01 发布

鸿浪@大数据

最新推荐文章于 2024-04-16 10:25:01 发布

阅读量842

点赞数

分类专栏：数据治理数据分析文章标签：政府大数据数据分析大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42893650/article/details/89883116

版权

数据治理同时被 2 个专栏收录

29 篇文章 29 订阅

订阅专栏

12 篇文章 2 订阅

订阅专栏

这两天项目正在接入新的数据，包括户籍人口数据、学校数量、医院数量等，上午简单浏览了每个表的结构及数据内容，发现有几个数据与网上公开报道存在冲突，应该是问题数据，比如，北京市出租车公开报道是6.6万辆，但接入表数据显示有20多万辆出租车。其它几个问题也是类似的，与网上公布的数值差异较大。参与了近三个月的政府大数据项目，有几个体会：

一是数据汇聚难，汇聚上来的数据质量差。对接上来的各委办局的数据，以汇总数据为主，字段内容普遍较少，缺少业务日期、空值、重复数据的情况屡见不鲜，这些浅层次的数据质量问题通过校验规则容易发现；
委办局众多，业务领域分散，数据正确性难以判断。省级的政府波及到上百个委办局，每个委办局的业务系统又有好几个，对接上来的数据除了显性的质量问题容易判断之外，深层次的准确性难以判断，比如，户籍人口数量、医院数量等；
数据清洗无从下手。由于大数据平台处于初建期，数据融合、统一维度还没有开始推进，因此，一旦出现数据项缺失、数据不一致等问题时，数据清洗是巧妇难为无米之炊，实现不了数据的自动较正，数据清洗也就仅限于剔重去空等。

要解决上述几个问题，一方面要提高数据质量检查的智能化程度，通过爬取网上公开报道的各类统计数值，构建政府行业的指标库，通过与公开数据比对，发现接入数据存在的准确性瓿；另一方面要丰富政府行业的标准代码库，通过标准代码库去修正接入数据中相关代码存在的缺陷问题。上述两个指标库和标准代码库，可以通过SAAS的方式对外提供服务，既能提高实施项目的效率，也可以尝试数据运营。

鸿浪@大数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【产品规划】数据质量智能探查

这两天项目正在接入新的数据，包括户籍人口数据、学校数量、医院数量等，上午简单浏览了每个表的结构及数据内容，发现有几个数据与网上公开报道存在冲突，应该是问题数据，比如，北京市出租车公开报道是6.6万辆，但接入表数据显示有20多万辆出租车。其它几个问题也是类似的，与网上公布的数值差异较大。参与了近三个月的政府大数据项目，有几个体会：一是数据汇聚难，汇聚上来的数据质量差。对接上来的各委办局的数据，以...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。