这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开报道存在冲突,应该是问题数据,比如,北京市出租车公开报道是6.6万辆,但接入表数据显示有20多万辆出租车。其它几个问题也是类似的,与网上公布的数值差异较大。参与了近三个月的政府大数据项目,有几个体会:
- 一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以汇总数据为主,字段内容普遍较少,缺少业务日期、空值、重复数据的情况屡见不鲜,这些浅层次的数据质量问题通过校验规则容易发现;
- 委办局众多,业务领域分散,数据正确性难以判断。省级的政府波及到上百个委办局,每个委办局的业务系统又有好几个,对接上来的数据除了显性的质量问题容易判断之外,深层次的准确性难以判断,比如,户籍人口数量、医院数量等;
- 数据清洗无从下手。由于大数据平台处于初建期,数据融合、统一维度还没有开始推进,因此,一旦出现数据项缺失、数据不一致等问题时,数据清洗是巧妇难为无米之炊,实现不了数据的自动较正,数据清洗也就仅限于剔重去空等。
要解决上述几个问题,一方面要提高数据质量检查的智能化程度,通过爬取网上公开报道的各类统计数值,构建政府行业的指标库,通过与公开数据比对,发现接入数据存在的准确性瓿;另一方面要丰富政府行业的标准代码库,通过标准代码库去修正接入数据中相关代码存在的缺陷问题。上述两个指标库和标准代码库,可以通过SAAS的方式对外提供服务,既能提高实施项目的效率,也可以尝试数据运营。