pyspark-结构化流在指定 maxOffsetsPerTrigger 的情况下，读取row行数会翻倍？

Cincinnati_De

于 2021-01-07 10:32:43 发布

阅读量763

点赞数

分类专栏：个人日记

本文链接：https://blog.csdn.net/Cincinnati_De/article/details/112304068

版权

个人日记专栏收录该内容

142 篇文章 4 订阅

订阅专栏

今天在读取 kafka 时，写了一个 sql 统计。结果发现指定 maxOffsetsPerTrigger 在2W ，结果读了 3W多条数据。

很纳闷~

后来调试发现是自己 sql 的问题

SQL 如下:

 select t1.ip,t1.cseq,count(1) cnt
        from
        (
            select
                f_ip as ip ,
                cseq
                from temp
            union all
            select
                t_ip as ip,
                cseq
                 from temp
        ) t1
        group by t1.ip,t1.cseq
        order by cnt desc

基本确定时 union all 搞的鬼。而且最后的统计结果翻了倍。

这种逻辑要慎写！读取两次是因为有两个一样的查询，可以事先做持久化。