消费kafka数据的时候，如果遇到了脏数据，或者是不符合规则的数据等等这么处理呢？

最新推荐文章于 2024-04-06 22:20:19 发布

青眼酷白龙

最新推荐文章于 2024-04-06 22:20:19 发布

阅读量1.3k

点赞数 1

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/qq_36382679/article/details/108900800

版权

kafka 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

                    
                    如对null值的处理，在下游使用sparksql处理时可以优化sql语句。select avg(case when test_id IS Null then “” else test_id end as test_id) from input.
对于数组类型的数据，要判断数组长度是否达到要求，是否存在丢失的数据或者无效数据，如果存在则需要通过filter清洗掉。
对于规则字段需要在计算之前，先做校验，如正则校验，只有满足规则的在进行后续的计算。
对于数据格式不匹配的，要进行格式转换，比如日期类型，要讲毫秒和秒的数字类型，以及不匹配的日期格式转换为统一的格式。金额等数字类型。如果有单位不统一的，比如分作为单位或者万元作为单位的金额，要转换为统一的金额单位。
类型不匹配的字段要转换为统一的字段类型等等。