spark并发读mysql_spark jdbc分区并发读取 mysql 大表

最新推荐文章于 2021-05-20 12:10:19 发布

M-末末末

最新推荐文章于 2021-05-20 12:10:19 发布

阅读量1k

点赞数 1

文章标签： spark并发读mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34520360/article/details/113237707

版权

本文介绍了如何通过Spark的jdbc方法提高从MySQL读取大表的并发度，以解决单线程任务过重导致的任务hang住问题。通过设置分区策略，如根据ID字段进行分区，可以有效避免数据倾斜，提高数据读取和处理速度。同时，要注意分区数量应根据数据库和Spark集群规模适当调整，防止数据源数据库过载。

摘要由CSDN通过智能技术生成

spark的分区从读取数据就开始分区的，合理的分区不仅能避免错误而且能大幅度提高效率。

很多人在spark中使用默认提供的jdbc方法时，在数据库数据较大时经常发现任务 hang 住，其实是单线程任务过重导致，这时候需要提高读取的并发度。以 mysql 3000W 数据量表为例，单分区count，僵死若干分钟报OOM。分成5－20个分区后，count 操作只需要 2s高并发度可以大幅度提高读取以及处理数据的速度，但是如果设置过高(大量的partition同时读取)也可能会将数据源数据库弄挂。

1.安装mysql-connector jar

方式一：直接将mysql-connector-java-5.1.34.jar分发到所有节点spark的jar中

方式二：在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.34.jar，任务提交时加入:--jars /path/mysql-connector-java-5.1.34.jar

2.单分区无并发读取mysql数据库val url = "jdbc:mysql://mysqlHost:3306/database"

val tableName = "table"

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","username")

prop.setProperty("password","pwd")

// 取得该表数据

val jdbcDF =

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。