消费kafka数据的时候,如果遇到了脏数据,或者是不符合规则的数据等等这么处理呢?

  1. 如对null值的处理,在下游使用sparksql处理时可以优化sql语句。select avg(case when test_id IS Null then “” else test_id end as test_id) from input.
  2. 对于数组类型的数据,要判断数组长度是否达到要求,是否存在丢失的数据或者无效数据,如果存在则需要通过filter清洗掉。
  3. 对于规则字段需要在计算之前,先做校验,如正则校验,只有满足规则的在进行后续的计算。
  4. 对于数据格式不匹配的,要进行格式转换,比如日期类型,要讲毫秒和秒的数字类型,以及不匹配的日期格式转换为统一的格式。金额等数字类型。如果有单位不统一的,比如分作为单位或者万元作为单位的金额,要转换为统一的金额单位。
  5. 类型不匹配的字段要转换为统一的字段类型等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值