RDD、Dataframe和Dataset

最新推荐文章于 2022-12-12 10:55:26 发布

一碗竹叶青

最新推荐文章于 2022-12-12 10:55:26 发布

阅读量455

点赞数

分类专栏： BigData # SparkDataFrame 文章标签： spark 大数据

本文链接：https://blog.csdn.net/baidu_38127162/article/details/109383363

版权

BigData 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

SparkDataFrame

6 篇文章 0 订阅

订阅专栏

RDD

RDD是spark建立的核心API，是一种由容错机制的特殊集合。提供分布式low-level API来操作，包括transformation和action

RDD 缺点：
无论是集群间的通信，还是IO操作都需要对对象的结构和数据进行序列化和反序列化。频繁地创建和销毁对象，势必会增加 GC 开销。

Dataset/Dataframe

DataFrame也是不可变分布式弹性数据集，DataFrame 的设计是为了让大数据
处理起来更容易，并做了 higher-level 的抽象。DataFrame提供特定领域的语言（ DSL ) API来操作数据集。

Dataset/DataFrame 优势如下：
1 ）简单易用：虽然结构化数据会给 Spark 程序操作数据集带来一些限制，但它却引进
了丰富的语义和易用的 DSL 。 Dataset 的 high-level API 支持大部分计算，例如 agg 、 select 、
sum 、 avg 、 map 、 filter 或者 groupBy 等计算。

2）使用 Catalyst 优化器： DataFrame 和 Dataset API 是建立在 Spark SQL 引擎之上的，它会使用 Catalyst优化器来生成优化过的逻辑计划和物理查询计划。 Scala 、 Java 、 Python 或R 的 DataFrame/Dataset API 使得查询都进行相同的代码优化，以及空间和速度的效率提升。

3）
使用 Tungsten 进行内存管理： Spark 作为编译器可以理解 Dataset 类型的 JVMobject ，它能映射特定类型的 JVM object 到 Tungsten 内存管理，使用 Encoder o Tungsten 的Encoder 可以有效地序列化／反序列化 JVM object ，生成字节码来提高执行速度。 RDD 与Dataset 使用 cache 时，内存的大致统计信息如图 6-6 所示：Dataset内存使用少。

相互转换：

( I )** RDD->DataFrame** ：把 RDD 转换为 DataFrame 时，需要确定其 Schema ，确定RDD 的 Schema 有以下几种方法：在利用反射机制推断 RDD 模式时， 需要首先定义一个case class ，因为，只有 case class 才能被 Spark 隐式地转换为 DataFrame ；当无法提前定义case class 时，就需要采用编程方式定义 RDD 模式。

( 2) RDD->Dataset val ds = rdd.toDS()

( 3 ) DataFrame/Dataset->RDD ：把 DataFrame 或者 Dataset 转化成一个 RDD ，只需简单的调用 . rdd 即可。

RDD转Dataframe


// 采用case class
import org.apache.spark.sql.SparkSession
case class Person(name:String,age:Int)
object app {  
  def main(args: Array[String]) {
    val session = SparkSession.builder().appName("RddToDataframe").master("local[*]").getOrCreate()
    val persons = Seq(Person("Luis",10),Person("Marta",20),Person("Enrique",12))
    val rdd =  session.sparkContext.parallelize(persons)
    import session.sqlContext.implicits._
    rdd.toDF().show()
  }
}

// 采用 createDataFrame
import org.apache.spark.sql.types._
val schema = StructType(List(
    StructField("integer_column", IntegerType, nullable = false),
    StructField("string_column", StringType, nullable = true),
    StructField("date_column", DateType, nullable = true)
))
 
val rdd = sc.parallelize(Seq(
  Row(1, "First Value", java.sql.Date.valueOf("2010-01-01")),
  Row(2, "Second Value", java.sql.Date.valueOf("2010-02-01"))
))
val df = sqlContext.createDataFrame(rdd, schema)

一碗竹叶青

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD、Dataframe和Dataset

RDDRDD是spark建立的核心API，是一种由容错机制的特殊集合。提供分布式low-level API来操作，包括transformation和actionRDD 缺点：无论是集群间的通信，还是IO操作都需要对对象的结构和数据进行序列化和反序列化。频繁地创建和销毁对象，势必会增加 GC 开销。Dataset/DataframeDataFrame也是不可变分布式弹性数据集，DataFrame 的设计是为了让大数据处理起来更容易，并做了 higher-level 的抽象。DataFrame提
复制链接

扫一扫