spark.read.jdbc 并发设置

1. 通过predicates设置读取并行度,如果只是spark.read.jdbc(mySqlHelper.url,mysql_table,predicates,mySqlHelper.prop),则并行的是1.

    val ip = ""
    val user = ""
    val database = ""
    val password = ""
    val mySqlHelper = MySqlHelper(ip,database,user,password)
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[*]").enableHiveSupport().getOrCreate()
     
        val mysql_table = ""

        def f1(): Unit ={
            val arr = ArrayBuffer[Int]()
            for(i <- 0 until 100){
                arr.append(i)
            }
            val predicates =arr.map(i=>{s"SHA1(fieldName)%100 = $i"}).toArray
            val starttime = System.currentTimeMillis()
            val a = spark.read.jdbc(mySqlHelper.url,mysql_table,predicates,mySqlHelper.prop)
            println(a.rdd.getNumPartitions)
            println(a.count())
            //a.show(false)
            val endtime = System.currentTimeMillis()
            println(endtime-starttime)
        }

        def f2(): Unit ={
            val starttime = System.currentTimeMillis()
            val a = spark.read.jdbc(mySqlHelper.url,mysql_table,mySqlHelper.prop)
            println(a.rdd.getNumPartitions)
            a.show(false)
            //        println(a.count())
            val endtime = System.currentTimeMillis()
            println(endtime-starttime) //
        }
        spark.stop()
    }

2. 测试结果:

   数据量在1百万级别 两者读取速度没有明显的差别,在千万级别f1明显快的多的多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值