RDD、Dataframe和Dataset

RDD

RDD是spark建立的核心API,是一种由容错机制的特殊集合。提供分布式low-level API来操作,包括transformation和action

RDD 缺点:
无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化。频繁地创建和销毁对象,势必会增加 GC 开销 。

Dataset/Dataframe

DataFrame也是不可变分布式弹性数据集,DataFrame 的设计是为了让大数据
处理起来更容易,并做了 higher-level 的抽象 。DataFrame提供特定领域的语言( DSL ) API来操作数据集 。

Dataset/DataFrame 优势如下:
1 )简单易用 : 虽然结构化数据会给 Spark 程序操作数据集带来一些限制,但它却引进
了丰富的语义和易用的 DSL 。 Dataset 的 high-level API 支持大部分计算,例如 agg 、 select 、
sum 、 avg 、 map 、 filter 或者 groupBy 等计算 。

2)使用 Catalyst 优化器: DataFrame 和 Dataset API 是建立在 Spark SQL 引擎之上的,它会使用 Catalyst优化器来生成优化过的逻辑计划和物理查询计划 。 Scala 、 Java 、 Python 或R 的 DataFrame/Dataset API 使得查询都进行相同的代码优化,以及空间和速度的效率提升 。

3)
使用 Tungsten 进行内存管理: Spark 作为编译器可以理解 Dataset 类型的 JVMobject ,它能映射特定类型的 JVM object 到 Tungsten 内存管理,使用 Encoder o Tungsten 的Encoder 可以有效地序列化/反序列化 JVM object ,生成字节码来提高执行速度 。 RDD 与Dataset 使用 cache 时,内存的大致统计信息如图 6-6 所示:Dataset内存使用少。

相互转换:

( I )** RDD->DataFrame** :把 RDD 转换为 DataFrame 时, 需要确定其 Schema ,确定RDD 的 Schema 有以下几种方法 : 在利用反射机制推断 RDD 模式时, 需要首先定义一个case class ,因为,只有 case class 才能被 Spark 隐式地转换为 DataFrame ; 当无法提前定义case class 时,就需要采用编程方式定义 RDD 模式 。

( 2) RDD->Dataset val ds = rdd.toDS()

( 3 ) DataFrame/Dataset->RDD :把 DataFrame 或者 Dataset 转化成一个 RDD , 只需简单的调用 . rdd 即可 。

RDD转Dataframe


// 采用case class
import org.apache.spark.sql.SparkSession
case class Person(name:String,age:Int)
object app {  
  def main(args: Array[String]) {
    val session = SparkSession.builder().appName("RddToDataframe").master("local[*]").getOrCreate()
    val persons = Seq(Person("Luis",10),Person("Marta",20),Person("Enrique",12))
    val rdd =  session.sparkContext.parallelize(persons)
    import session.sqlContext.implicits._
    rdd.toDF().show()
  }
}

// 采用 createDataFrame
import org.apache.spark.sql.types._
val schema = StructType(List(
    StructField("integer_column", IntegerType, nullable = false),
    StructField("string_column", StringType, nullable = true),
    StructField("date_column", DateType, nullable = true)
))
 
val rdd = sc.parallelize(Seq(
  Row(1, "First Value", java.sql.Date.valueOf("2010-01-01")),
  Row(2, "Second Value", java.sql.Date.valueOf("2010-02-01"))
))
val df = sqlContext.createDataFrame(rdd, schema)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值