Spark----RDD,DF,DS效率比较

最新推荐文章于 2023-04-04 20:14:58 发布

砥砺前行的疯子

最新推荐文章于 2023-04-04 20:14:58 发布

阅读量2.6k

点赞数

分类专栏： spark 程序人生-砥砺前行文章标签： RDD RF DS

本文链接：https://blog.csdn.net/lpf787887/article/details/91613417

版权

程序人生-砥砺前行同时被 2 个专栏收录

34 篇文章 1 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

今天听一个计数大牛说DS>RDD>DF 特写了代码测试下三个运行的速度，代码如下，运行结果在代码后面

package com.huawei.spark.areaRoadFlow

import java.util.UUID

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Dataset, SparkSession}

object Test_DF_DS_RDD_Speed {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("无聊耍耍").master("local").getOrCreate()
    spark.sparkContext.setLogLevel("ERROR")

    val firstRdd: RDD[(String, Int)] = spark.sparkContext.parallelize(0 to 400000).map(num => {
      (UUID.randomUUID().toString, num)
    })
    firstRdd
    firstRdd.cache()

    val beginTimeRdd: Long = System.currentTimeMillis()
    firstRdd.map(tp=>{tp._1+"-"+tp._2}).collect()
    val endTimeRdd: Long = System.currentTimeMillis()

    import spark.implicits._
    val beginTimeDF: Long = System.currentTimeMillis()
    firstRdd.toDF().map(row=>{row.get(0)+"-"+row.get(1)}).collect()
    val endTimeDF: Long = System.currentTimeMillis()

    val beginTimeDS: Long = System.currentTimeMillis()
    firstRdd.toDS().map(tp=>{tp._1+"-"+tp._2}).collect()
    val endTimeDS: Long = System.currentTimeMillis()

    println(s"RDD算子耗时${endTimeRdd-beginTimeRdd}")
    println(s"DF算子耗时${endTimeDF-beginTimeDF}")
    println(s"DS算子耗时${endTimeDS-beginTimeDS}")
  }
}

在这里插入图片描述
很明显，效率是成倍的提高的。
至于为啥会提高那么多，后面有空再深究其源码

砥砺前行的疯子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Spark----RDD,DF,DS效率比较

今天听一个计数大牛说DS>RDD>DF 特写了代码测试下三个运行的速度，代码如下，运行结果在代码后面package com.huawei.spark.areaRoadFlowimport java.util.UUIDimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSessi...
复制链接

扫一扫