spark数据源mysql_Spark - 直接操作数据源 MySQL

最新推荐文章于 2022-09-09 15:02:49 发布

郭鑫垚

最新推荐文章于 2022-09-09 15:02:49 发布

阅读量125

点赞数

文章标签： spark数据源mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36462094/article/details/113300120

版权

> 如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。

## 读取

```

val mysqlDF = spark

.read

.format("jdbc")

.option("driver","com.mysql.jdbc.Driver")

.option("url","jdbc:mysql://localhost:3306/ttable")

.option("user","root")

.option("password","root")

.option("dbtable","(select * from ttt where userId >1 AND userId < 10) as log")//条件查询出想要的表

//.option("dbtable","ttable.ttt")//整张表

.option("fetchsize","100")

.option("useSSL","false")

.load()

```

分区读取

```

spark

.read

.format("jdbc")

.option("url", url)

.option("dbtable", "ttt")

.option("user", user)

.option("password", password)

.option("numPartitions", 10)

.option("partitionColumn", "userId")

.option("lowerBound", 1)

.option("upperBound", 10000)

.load()

```

实际会生成如下查询语句,(所有分区会一直查询，直到整张表数据查询完为止)

```

SELECT * FROM ttt WHERE userId >= 1 and userId < 1000

SELECT * FROM ttt WHERE userId >= 1000 and userId < 2000

SELECT * FROM ttt WHERE userId >= 2000 and userId < 3000

...

```

## 写入

```

mysqlDF.createTempView("log")

spark

.sql("select * from log")

.toDF()

.write

.mode(SaveMode.Overwrite)

.format("jdbc")

.option("driver","com.mysql.jdbc.Driver")

.option("url","jdbc:mysql://localhost:3306/ttable")

.option("dbtable","a")

.option("user","root")

.option("password","root")

.option("fetchsize","100")

.option("useSSL","false")

.save()

```

![](https://upload-images.jianshu.io/upload_images/9028759-3c0e86bf567a8fb7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

---

![](https://upload-images.jianshu.io/upload_images/9028759-07315bb8dadcd082.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark数据源mysql_Spark - 直接操作数据源 MySQL

> 如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。## 读取```val mysqlDF = spark.read.format("jdbc").option("driver","com.mysql.jdbc.Driver").option("url","jdbc:mysql...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。