数据清理及迁移

近日学到了个超牛掰的定律,侯世达定律,适用于码农,“ 做事所花费的时间总是比你预期的要长,即使你的预期中考虑了侯世达定律”。连定律描述都是用的编程思维,一个定律竟可以调用自身,还没有退出条件,生动描述了项目delay的现状。自此看许多任务,都有着侯世达的影子。项目实施过程中的数据工作,就是典型的侯世达定律。排主计划时,就明确数据要尽早准备,并明确分工职责,但到了测试、切换阶段,总会爆出数据风险。要么数据范围相关方理解不一致,收集不全,数据质量未达到预期,不按照模板提供,缺失必填字段,不同系统来源数据不一致,数据清洗转换工作责任不清。

数据迁移,重要,但不体现价值。个人感受,数据清理及迁移是项目全过程中最枯燥的任务,比测试更考验人的耐心。每次准抓取、清洗数据时,总会犯学生拖延症,还有几天时间呢,明天再弄吧,估计这是普遍心理。第二个造成数据进度delay的原因,在于其复杂度远超从表象上看到的。涉及到迁移目标系统、源系统、消费系统,各方的要求往往不一致。许多数据质量上的问题,往往在实际导入时才能发现。因此数据清理与迁移工作,需靠项目前期定义好规则指导,减轻数据造成的项目风险。


数据迁移方法论

  1. 制定迁移策略及范围。包括迁移数据范围,数据质量要求,抓取、清洗数据的流程,及分批迁移步骤,输出数据迁移计划

  2. 收集。提供数据模板,质量检查,数据量确认

  3. 分析。具体分析数据质量,特别是缺失字段、不完整字段、数据类型不匹配字段、值集不匹配LOV。匹配不同来源系统数据的一致性

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值