流程节点数据是指你们有多个数据库吗? 分库的意思吗? 没太懂。
当数据迁移完成以后,如何确保数据的正确迁移,没有遗漏和错误是一个很难的问题,这里的难不是实现起来困难,而是把它自动化,然后节省人力有点难,因为两者的数据类型不同,数据量偏大,写一些脚本去做检查效果不大
我们的数据校检工作主要分为在导入的过程中的log和警告,在load的时候SHOW WARNINGS和errors,在使用python、ogg、kettle等工具时详细的去看每个errors信息。
迁移或增量操作完成以后,用最简单的count(*)去检查,在mysql和oracle上检查进行比对。如果数据量一致,再进行数据内容的验证。由于数据量太大,只进行了抽样检测.人工的手动检验如果没有问题了,可以使用应用程序对生产数据库的副本进行测试,在备库上进行应用程序的测试。近而进行再一次的验检。 另外推荐的一种方式就是使用etl工具配置好mysql和oracle的数据源,分别对数据进行抽取,然后生成cube。进行多纬度的报表展现。数据是否有偏差 可以一目了然的看的很清楚。
数据的完整性验证是十分重要的,千万不要怕验证到错误后还要好长时候去抽取同步的操作,因为一旦没有验证到错误,数据进行了使用,一旦乱掉,后果将更严重。收起