在实时计算开发的过程中,如何保证数据的正确性是一个比较棘手的问题。保证数据正确性的第一步就是对数据进行验证,在这篇文章中我将介绍几种常见的数据验证方式。大致的思路就是将 Flink 写入的结果数据 和 明细数据或离线数据进行比对。在这里我们统一把数据导入到 Hive 中。
以 Flink 实时计算中的数据漂移 的代码为例,讲解整个比对流程,实时计算的代码如下:
-- source 表
create table order_pay_binlog_source
(
order_no varchar comment '订单号'
, shop_id bigint comment '店铺id'
, user_id bigint comment '用户id'
, customer_id bigint comment '用户id'
, order_time string comment '支付时间'
, pay_amount bigint comment '实付金额'
) with (
'co