spark的分区从读取数据就开始分区的,合理的分区不仅能避免错误而且能大幅度提高效率。
很多人在spark中使用默认提供的jdbc方法时,在数据库数据较大时经常发现任务 hang 住,其实是单线程任务过重导致,这时候需要提高读取的并发度。 以 mysql 3000W 数据量表为例,单分区count,僵死若干分钟报OOM。分成5-20个分区后,count 操作只需要 2s高并发度可以大幅度提高读取以及处理数据的速度,但是如果设置过高(大量的partition同时读取)也可能会将数据源数据库弄挂。
1.安装mysql-connector jar
方式一:直接将mysql-connector-java-5.1.34.jar分发到所有节点spark的jar中
方式二:在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.34.jar,任务提交时加入:--jars /path/mysql-connector-java-5.1.34.jar
2.单分区无并发读取mysql数据库val url = "jdbc:mysql://mysqlHost:3306/database"
val tableName = "table"
// 设置连接用户&密码
val prop = new java.util.Properties
prop.setProperty("user","username")
prop.setProperty("password","pwd")
// 取得该表数据
val jdbcDF =