DW中的数据校验

DW中的数据校验[@more@]数据,数据,数据!
数据很重要,离开了数据就什么都玩不转,这就是BI!
中国有一个现象就是居住证或者暂住证的制度,去了别的城市,有了时候你有户口还是非法的。
数据就是你,系统就是城市。DW,ODS,ERP,MIS等等都是城市,所以你原来数据ERP的,现在到了DW,你就要去公安局或者其他的部门登记,验
证身份,(户口,住址,身高体重,工作单位,有无不良记录),然后才合法。(上海就是这样的,所以上海的治安,相对来说比较好)。所以登记和验证的工作
是必不可少的,DW的流程中,数据校验(data validation)就显得很重要了!
数据校验需要规则,校验的规则就有很多种,就像身份验证中的不同的工序一下。主要有元规则和业务规则。
元规则:就是数据本身的问题,比如数据类型,格式,是否为空,是否和主键冲突。这些是很简单的一些规则。
业务规则:就是数据的外观和价值了。比如身高,如果别人都是177,178,当然是cm,如果,你是3,300,400,1,8,9等等这些数字,那就
令人费解了,别人很难知道了,再比如性别:F&M,如果你是别的字母,那就不太好说了。
当然现在很多哦数据挖掘的观点就是保持数据的原貌,原来是多少就是多少,不改变,性别就是的,F,M,U,O,这里就是男女,U就是unknow,O就
是其他的字符,但是很多数据是可以避免的,我们还是需要校验的。比如我们有很多工序都是又先后的,比如有销售订单就一点有产品类型,但是如果只是有销售
订单,没有对应的产品类型,我们就应该对这条记录进行处理,要么表上标签,让数据先存进去,要么拒绝,要么先放到别的表中等待人员进行人工校验。

再谈谈我们如何在设计中去设计吧
以前我在satyam遇到一个项目,个人觉得还是很有用的:
数据校验有一个引擎,对不同表的数据都设置一些规则,然后写一个存储过程作为引擎,不同的数据经过,引擎就用不同的规则去校验,遇到不合法的,生成一条
带有主键的记录,存到一种表中。然后把这些记录反映到前台的UI上,由用户看到了UI,就对数据进行人工的修改或者检查。有的需要改,有的不需要,有的
需要删除等等。这样就可以保留很多的有用数据,也使数据的校验工作比较灵活,也可以增加校验规则。

这些其实说起来还是很简单的,但是在物理实现上还是需要考虑一下校验规则如何判断校验条件等等。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7600305/viewspace-1004097/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/7600305/viewspace-1004097/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值