pyspark jdbc mysql_pyspark1.6：通过JDBC将数据帧写入Mysql时性能较差

最新推荐文章于 2024-06-06 13:20:41 发布

陈健坤

最新推荐文章于 2024-06-06 13:20:41 发布

阅读量212

点赞数

文章标签： pyspark jdbc mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31001313/article/details/113904579

版权

我正在编写一个python应用程序，它从Cassandra读取数据，通过Spark api进行一些处理，然后通过jdbc将结果写入Mysql数据库。

通过spark处理数据的整个代码只需几秒钟，但将最后一个数据帧(大约5000行)写入mysql需要大约10分钟，所以我正试图找出如何加快这一部分的速度。

这是我用来将py spark dataframe写入mysql表的代码：df_name.write.jdbc(url=mysql_url.value,

table=tbl_name,

mode=mode.value,

properties={'user': mysql_user.value,

'password': mysql_pwd.value,

'driver': mysql_jdbc.value})

我分配了--executor-memory 4g --driver-memory 2g --total-executor-cores 6来运行我的应用程序。

我要写入mysql的数据帧的分区数是5740；我遵循了一些建议来减少分区数(通过.repartition()函数)，但这并没有加快写入阶段。

我还按照[1]中的技巧设置了rewriteBatchedStatements=true和{}，但性能并没有提高。

在通过jdbc从dataframe写入mysql时，有没有什么设置或技巧可以提高速度？

谢谢你的帮助。

p/S：我们的Mysql数据库正在生产中，在其他应用程序中我们没有发现性能问题。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark jdbc mysql_pyspark1.6：通过JDBC将数据帧写入Mysql时性能较差

我正在编写一个python应用程序，它从Cassandra读取数据，通过Spark api进行一些处理，然后通过jdbc将结果写入Mysql数据库。通过spark处理数据的整个代码只需几秒钟，但将最后一个数据帧(大约5000行)写入mysql需要大约10分钟，所以我正试图找出如何加快这一部分的速度。这是我用来将py spark dataframe写入mysql表的代码：df_name.write....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。