RDD
RDD是spark建立的核心API,是一种由容错机制的特殊集合。提供分布式low-level API来操作,包括transformation和action
RDD 缺点:
无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化。频繁地创建和销毁对象,势必会增加 GC 开销 。
Dataset/Dataframe
DataFrame也是不可变分布式弹性数据集,DataFrame 的设计是为了让大数据
处理起来更容易,并做了 higher-level 的抽象 。DataFrame提供特定领域的语言( DSL ) API来操作数据集 。
Dataset/DataFrame 优势如下:
1 )简单易用 : 虽然结构化数据会给 Spark 程序操作数据集带来一些限制,但它却引进
了丰富的语义和易用的 DSL 。 Dataset 的 high-level API 支持大部分计算,例如 agg 、 select 、
sum 、 avg 、 map 、 filter 或者 groupBy 等计算 。
2)使用 Catalyst 优化器: DataFrame 和 Dataset API 是建立在 Spark SQL 引擎之上的,它会使用 Catalyst优化器来生成优化过的逻辑计划和物理查询计划 。 Scala 、 Java 、 Python 或R 的 DataFrame/Dataset API 使得查询都进行相同的代码优化,以及空间和速度的效率提升 。
3)
使用 Tungsten 进行内存管理: Spark 作为编译器可以理解 Dataset 类型的 JVMobject ,它能映射特定类型的 JVM object 到 Tungsten 内存管理,使用 Encoder o Tungsten 的Encoder 可以有效地序列化/反序列化 JVM object ,生成字节码来提高执行速度 。 RDD 与Dataset 使用 cache 时,内存的大致统计信息如图 6-6 所示:Dataset内存使用少。
相互转换:
( I )** RDD->DataFrame** :把 RDD 转换为 DataFrame 时, 需要确定其 Schema ,确定RDD 的 Schema 有以下几种方法 : 在利用反射机制推断 RDD 模式时, 需要首先定义一个case class ,因为,只有 case class 才能被 Spark 隐式地转换为 DataFrame ; 当无法提前定义case class 时,就需要采用编程方式定义 RDD 模式 。
( 2) RDD->Dataset val ds = rdd.toDS()
( 3 ) DataFrame/Dataset->RDD :把 DataFrame 或者 Dataset 转化成一个 RDD , 只需简单的调用 . rdd 即可 。
RDD转Dataframe
// 采用case class
import org.apache.spark.sql.SparkSession
case class Person(name:String,age:Int)
object app {
def main(args: Array[String]) {
val session = SparkSession.builder().appName("RddToDataframe").master("local[*]").getOrCreate()
val persons = Seq(Person("Luis",10),Person("Marta",20),Person("Enrique",12))
val rdd = session.sparkContext.parallelize(persons)
import session.sqlContext.implicits._
rdd.toDF().show()
}
}
// 采用 createDataFrame
import org.apache.spark.sql.types._
val schema = StructType(List(
StructField("integer_column", IntegerType, nullable = false),
StructField("string_column", StringType, nullable = true),
StructField("date_column", DateType, nullable = true)
))
val rdd = sc.parallelize(Seq(
Row(1, "First Value", java.sql.Date.valueOf("2010-01-01")),
Row(2, "Second Value", java.sql.Date.valueOf("2010-02-01"))
))
val df = sqlContext.createDataFrame(rdd, schema)