spark-sql-kafka streaming 首个batch日志太多导致异常退出
最近遇到了spark structured streaming从kafka读取数据时,首个批处理查询读取的日志太多导致程序崩溃,查找资料未果,只能从连接kafka的jar包源码入手,查看是否可以限制单个批量读取的最大日志数,最终通过修改源码重新编译实现该功能。
spark-sql-kafka在实现流式处理数据的时候,每次先读取前一个batch的topic-partition-offset,然后通...
原创
2018-11-27 18:20:57 ·
898 阅读 ·
2 评论