很多人在spark中使用默认提供的jdbc方法时,在数据库数据较大时经常发现任务 hang 住,其实是单线程任务过重导致,这时候需要提高读取的并发度。
下文以 mysql 为例进行说明。
在spark中使用jdbc
在 spark-env.sh 文件中加入:
export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.34.jar
任务提交时加入:
--jars /path/mysql-connector-java-5.1.34.jar
1. 单partition(无并发)
调用函数
def jdbc(url: String, table: String, properties: Properties): DataFrame
使用:
val url = "jdbc:mysql://mysqlHost:3306/database"
val tableName = "table"
// 设置连接用户&密码
val prop = new java.util.Properties
prop.setProperty("user","username")
prop.setProperty("password","pwd")
// 取得该表数据
val jdbcDF = sqlContext.read.jdbc(url,tableName,prop)
// 一些操作
....
查看并发度
jdbcDF.rdd.partitions.size # 结果返回 1
该操作的并发度为