spark.read.jdbc 并发设置

最新推荐文章于 2023-07-27 17:45:00 发布

卡奥斯道

最新推荐文章于 2023-07-27 17:45:00 发布

阅读量5k

点赞数 4

分类专栏： spark 文章标签： spark.read.jdbc 并发设置并发设置

本文链接：https://blog.csdn.net/kaaosidao/article/details/86496939

版权

spark 专栏收录该内容

33 篇文章 2 订阅

订阅专栏

1. 通过predicates设置读取并行度，如果只是spark.read.jdbc(mySqlHelper.url,mysql_table,predicates,mySqlHelper.prop)，则并行的是1.

    val ip = ""
    val user = ""
    val database = ""
    val password = ""
    val mySqlHelper = MySqlHelper(ip,database,user,password)
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[*]").enableHiveSupport().getOrCreate()
     
        val mysql_table = ""

        def f1(): Unit ={
            val arr = ArrayBuffer[Int]()
            for(i <- 0 until 100){
                arr.append(i)
            }
            val predicates =arr.map(i=>{s"SHA1(fieldName)%100 = $i"}).toArray
            val starttime = System.currentTimeMillis()
            val a = spark.read.jdbc(mySqlHelper.url,mysql_table,predicates,mySqlHelper.prop)
            println(a.rdd.getNumPartitions)
            println(a.count())
            //a.show(false)
            val endtime = System.currentTimeMillis()
            println(endtime-starttime)
        }

        def f2(): Unit ={
            val starttime = System.currentTimeMillis()
            val a = spark.read.jdbc(mySqlHelper.url,mysql_table,mySqlHelper.prop)
            println(a.rdd.getNumPartitions)
            a.show(false)
            //        println(a.count())
            val endtime = System.currentTimeMillis()
            println(endtime-starttime) //
        }
        spark.stop()
    }

2. 测试结果：

数据量在1百万级别两者读取速度没有明显的差别，在千万级别f1明显快的多的多