pyspark-结构化流 在指定 maxOffsetsPerTrigger 的情况下,读取row行数 会翻倍?

今天在读取 kafka 时,写了一个 sql 统计。结果发现指定 maxOffsetsPerTrigger 在2W ,结果读了 3W多条数据。

很纳闷~

 

后来调试发现是自己 sql 的问题

SQL 如下:

 select t1.ip,t1.cseq,count(1) cnt
        from
        (
            select
                f_ip as ip ,
                cseq
                from temp
            union all
            select
                t_ip as ip,
                cseq
                 from temp
        ) t1
        group by t1.ip,t1.cseq
        order by cnt desc


 

基本确定时   union all 搞的鬼。而且最后的统计结果翻了倍。

这种逻辑要慎写! 读取两次是因为有两个一样的查询,可以事先 做持久化。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值