- 如对null值的处理,在下游使用sparksql处理时可以优化sql语句。select avg(case when test_id IS Null then “” else test_id end as test_id) from input.
- 对于数组类型的数据,要判断数组长度是否达到要求,是否存在丢失的数据或者无效数据,如果存在则需要通过filter清洗掉。
- 对于规则字段需要在计算之前,先做校验,如正则校验,只有满足规则的在进行后续的计算。
- 对于数据格式不匹配的,要进行格式转换,比如日期类型,要讲毫秒和秒的数字类型,以及不匹配的日期格式转换为统一的格式。金额等数字类型。如果有单位不统一的,比如分作为单位或者万元作为单位的金额,要转换为统一的金额单位。
- 类型不匹配的字段要转换为统一的字段类型等等。
消费kafka数据的时候,如果遇到了脏数据,或者是不符合规则的数据等等这么处理呢?
最新推荐文章于 2024-04-06 22:20:19 发布