SparkSQL 读取mysql大表速度过慢解决方法

最新推荐文章于 2024-06-12 16:14:47 发布

kaloKu

最新推荐文章于 2024-06-12 16:14:47 发布

阅读量5.3k

点赞数 3

分类专栏： Spark Mysql

本文链接：https://blog.csdn.net/qq_31622585/article/details/95050141

版权

当使用SparkSQL从包含约2400万条数据的MySQL表中读取时，遇到了15分钟以上的延迟及OOM、Executor超时等问题。通过研究官方文档和相关文章，了解到可以采用分区查询来提高效率。通过设置`partitionColumn`, `lowerBound`, `upperBound`, `numPartitions`参数，成功将读取时间降低到2分钟以内。" 112590320,10538295,PID控制器详解：原理与指令应用,"['自动控制', 'PID运算', '控制理论', 'PLC编程', '系统响应']

摘要由CSDN通过智能技术生成

问题背景

在使用sqarksql.read读取mysql表时(大约为2400万条左右）

    val scholarDF = spark.read
     .format("jdbc")
     .option("url", "jdbc:mysql://192.168.60.49:3306/test")
     .option("dbtable", "scholar_2")
     .option("user", root)
     .option("password", password)
     .load()

会产生难以忍受的时间长度（15min以上），而且无论怎么调大driver和executor内存，都无济于事，还会产生oom，heap space，Executor heartbeat timeout等错误

[Stage 0:=======================================================> (

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kaloKu

关注关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL 读取mysql大表速度过慢解决方法

问题背景在使用sqarksql.read读取mysql表时(大约为2400万条左右） val scholarDF = spark.read .format("jdbc") .option("url", "jdbc:mysql://192.168.60.49:3306/test") .option("dbtable", "scholar_2") .o...
复制链接

扫一扫