189、Spark 2.0之Dataset开发详解-typed操作:coalesce、repartition

coalesce和repartition操作,都是用来重新定义分区的
区别在于:coalesce,只能用于减少分区数量,而且可以选择不发生shuffle
repartiton,可以增加分区,也可以减少分区,必须会发生shuffle,相当于是进行了一次重分区操作

代码

object TypedOperation {

  case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)

  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession
      .builder()
      .appName("BasicOperation")
      .master("local")
      .getOrCreate()

    import sparkSession.implicits._

    val employeePath = this.getClass.getClassLoader.getResource("employee.json").getPath

    val employeeDF = sparkSession.read.json(employeePath)

    val employeeDS = employeeDF.as[Employee]
    println(employeeDS.rdd.partitions.size)

    val employeeDSRepartitioned = employeeDS.repartition(5)
    println(employeeDSRepartitioned.rdd.partitions.size)

    val employeeDSCoalesced = employeeDSRepartitioned.coalesce(3)
    println(employeeDSCoalesced.rdd.partitions.size)
  }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,DatasetSpark 2.0引入的一个新的API,它是强类型的数据集合,旨在弥补DataFrame和RDD之间的差距,同时提供类型安全和面向对象的编程模型。 与DataFrame不同,Dataset不仅提供了类似于SQL的查询功能,还提供了更多的面向对象的API,因此更适合于开发人员进行复杂的数据分析和操作Dataset还具有更好的类型安全性,因为它们是强类型的,这意味着编译器可以在编译时捕获类型不匹配的错误,而不是在运行时抛出异常。 在使用Dataset时,我们可以使用Scala或Java编写类型安全的代码,并在运行时获得更好的性能。 下面是一个简单的Java示例,演示如何使用Dataset: ``` // 创建一个SparkSession对象 SparkSession spark = SparkSession.builder() .appName("Java Dataset Example") .master("local") .getOrCreate(); // 读取一个CSV文件,并将其转换为Dataset Dataset<Row> df = spark.read().format("csv") .option("header", "true") .load("path/to/file.csv"); // 将Dataset转换为类型安全的Java对象 Encoder<MyObject> myObjectEncoder = Encoders.bean(MyObject.class); Dataset<MyObject> myObjects = df.as(myObjectEncoder); // 进行复杂的操作 Dataset<MyObject> filtered = myObjects.filter(myObject -> myObject.getAge() > 18); // 将结果保存到文件中 filtered.write().format("csv").save("path/to/output"); ``` 在这个示例中,我们首先读取一个CSV文件,并将其转换为DataFrame。然后,我们使用Encoder将DataFrame转换为类型安全的Java对象。接着,我们进行过滤操作,只选择年龄大于18岁的对象,并将结果保存到文件中。 希望这个简单的示例可以帮助你了解如何使用Dataset进行数据操作

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值