目前,通常我们在数据仓库中通过批处理的方式来清洗数据。但是数据的验证和清洗最好是在上游的业务系统中完成。业务系统是我们获取和保存数据的最初始的地方。在数据还没有被分发到不同地方的时候,就保证数据是干净可以大大减少后期数据的数据质量问题和验证清洗数据的工作量。同时,在业务系统验证和清洗数据也改善了业务系统本身的数据质量和效率。我们把业务系统数据的验证和清洗成为实时数据质量服务。
举一个简单的例子:
在订单管理流程中我们通常要获取“收货地址”信息。通过实施实时数据质量服务,我们可以确保地址的格式和内容都是正确的,而如果没有实时质量服务,很有可能由于收货地址的错误,使得交货延迟并降低了顾客满意度。
实时数据质量服务可以通过hub,SOA等方法实现。但是要向实时数据质量服务转变并不是一件容易的事情。实现数据质量实时验证和清洗具有很大的复杂性并且需要考虑如何能够不对原来的流程性业务系统的正常服务造成影响。在实施实时数据质量服务之前,可以先实行数据治理,以完成组织上和文化上的转变。