[Spark进阶]-- 读取数据库(Mysql)的四种方式讲解

最新推荐文章于 2024-04-14 13:41:19 发布

往事随风ing

最新推荐文章于 2024-04-14 13:41:19 发布

阅读量4.4k

点赞数 1

分类专栏： Spark 文章标签： mysql spark 数据库

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark连接MySQL的四种方法：不指定查询条件、指定字段范围（数字字段）、根据任意字段分区以及通过load方法。强调了在大数据量场景下避免直接全表读取以及对字段类型的限制。同时提到了load方法的灵活性，支持多种数据源。

摘要由CSDN通过智能技术生成

本文转载自"过往记忆"（http://www.iteblog.com/）

本文链接: 【Spark读取数据库(Mysql)的四种方式讲解】（http://www.iteblog.com/archives/1560）

目前Spark支持四种方式从数据库中读取数据，这里以Mysql为例进行介绍。

一、不指定查询条件

　　这个方式链接MySql的函数原型是：

`1`	`def` `jdbc(url:` `String, table:` `String, properties:` `Properties):` `DataFrame`

　　我们只需要提供Driver的url，需要查询的表名，以及连接表相关属性properties。下面是具体例子：

1 . val url = "jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog"

`3`	`val` `prop` `=` `new` `Properties()`

`4`	`val` `df` `=` `sqlContext.read.jdbc(url,` `"iteblog", prop )`

5	`println(df.count())`

6	`println(df.rdd.partitions.size)`

　　我们运行上面的程序，可以看到df.rdd.partitions.size输出结果是1，这个结果的含义是iteblog表的所有数据都是由RDD的一个分区处理的，所以说，如果你这个表很大，很可能会出现OOM

`1`	`WARN TaskSetManager:` `Lost task` `0.0` `in stage` `1.0` `(TID` `14, spark047219):`

`2`	`java.lang.OutOfMemoryError:` `GC overhead limit exceeded at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3380)`

这种方式在数据量大的时候不建议使用。

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

二、指定数据库字段的范围

　　这种方式就是通过指定数据库中某个字段的范围，但是遗憾的是，这个字段必须是数字，来看看这个函数的函数原型：

`1`	`def` `jdbc(`

`2`	`url:` `String,`

`3`	`table:` `String,`

`4`	`columnName:` `String,`

`5`	`lowerBound:` `Long,`

`6`	`upperBound:` `Long,`

`7`	`numPartitions:` `Int,`

`8`	`connectionProperties:` `Properties):` `DataFrame`

　　前两个字段的含义和方法一类似。columnName就是需要分区的字段，这个字段在数据库中的类型必须是数字；lowerBound就是分区的下界；upperBound就是分区的上界；numPartitions是分区的个数。同样，我们也来看看如何使用：

`1`	`val` `lowerBound` `=` `1`

`2`	`val` `upperBound` `=` `100000`

`3`	`val` `numPartitions` `=` `5`

`4`	`val` `url` `=` `"jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog"`

5	`val` `prop` `=` `new` `Properties()`

`7`	`val` `df` `=` `sqlContext.read.jdbc(url,` `"iteblog",` `"id", lowerBound, upperBound, numPartitions, prop)`

　　这个方法可以将iteblog表的数据分布到RDD的几个分区中，分区的数量由numPartitions参数决定，在理想情况下，每个分区处理相同数量的数据，我们在使用的时候不建议将这个值设置的比较大，因为这可能导致数据库挂掉！但是根据前面介绍，这个函数的缺点就是只能使用整形数据字段作为分区关键字。

　　这个函数在极端情况下，也就是设置将numPartitions设置为1，其含义和第一种方式一致。

三、根据任意字段进行分区

　　基于前面两种方法的限制，Spark还提供了根据任意字段进行分区的方法，函数原型如下：

`1`	`def` `jdbc(`

`2`	`url:` `String,`

`3`	`table:` `String,`

`4`	`predicates:` `Array[String],`

`5`	`connectionProperties:` `Properties):` `DataFrame`

这个函数相比第一种方式多了predicates参数，我们可以通过这个参数设置分区的依据，来看看例子：

`1`	`val` `predicates` `=` `Array[String]("reportDate <= '2014-12-31'",`

`2`	`"reportDate > '2014-12-31' and reportDate <= '2015-12-31'")`

`3`	`val` `url` `=` `"jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog"`

4	`val` `prop` `=` `new` `Properties()`

5	`val` `df` `=` `sqlContext.read.jdbc(url,` `"iteblog", predicates, prop)`

最后rdd的分区数量就等于predicates.length。

四、通过load获取

Spark还提供通过load的方式来读取数据。

`1`	`sqlContext.read.format("jdbc").options(`

`2`	`Map("url"` `->` `"jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog",`

`3`	`"dbtable"` `->` `"iteblog")).load()`

　　options函数支持url、driver、dbtable、partitionColumn、lowerBound、upperBound以及numPartitions选项，细心的同学肯定发现这个和方法二的参数一致。是的，其内部实现原理部分和方法二大体一致。同时load方法还支持json、orc等数据源的读取。