Spark 2.0介绍:Dataset介绍和使用

Dataset介绍

  Dataset是从Spark 1.6开始引入的一个新的抽象,当时还是处于alpha版本;然而在Spark 2.0,它已经变成了稳定版了。下面是DataSet的官方定义:

Dataset is a strongly typed collection of domain-specific objects that can be transformed
in parallel using functional or relational operations. Each Dataset also has an untyped view
called a DataFrame, which is a Dataset of Row.

  Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。每个Dataset都有一个称为DataFrame的非类型化的视图,这个视图是行的数据集。上面的定义看起来和RDD的定义类似,RDD的定义如下:

RDD represents an immutable,partitioned collection of elements that can be operated on in parallel

  RDD也是可以并行化的操作,DataSet和RDD主要的区别是:DataSet是特定域的对象集合;然而RDD是任何对象的集合。DataSet的API总是强类型的;而且可以利用这些模式进行优化,然而RDD却不行。

  Dataset的定义中还提到了DataFrame,DataFrame是特殊的Dataset,它在编译时不会对模式进行检测。在未来版本的Spark,Dataset将会替代RDD成为我们开发编程使用的API(注意,RDD并不是会被取消,而是会作为底层的API提供给用户使用)。

上面简单地介绍了Dataset相关的定义,下面让我们来看看如何以编程的角度来使用它。

Dataset Wordcount实例

  为了简单起见,我将介绍如何使用DataSet编写WordCount计算程序。

第一步、创建SparkSession

正如我们在《Spark 2.0介绍:SparkSession创建和使用相关API》中提到的,我们在这里将使用SparkSession作为程序的切入点,并使用它来创建出Dataset:

val sparkSession = SparkSession.builder.
       master( "local" )
       .appName( "example" )
       .getOrCreate()

第二步、读取数据并将它转换成Dataset

我们可以使用read.text API来读取数据,正如RDD版提供的textFileas[String]可以为dataset提供相关的模式,如下:

import sparkSession.implicits. _
val data = sparkSession.read.text( "src/main/resources/data.txt" ).as[String]

上面data对象的类型是DataSet[String],我们需要引入sparkSession.implicits._

第三步、分割单词并且对单词进行分组

Dataset提供的API和RDD提供的非常类似,所以我们也可以在DataSet对象上使用map, groupByKey相关的API,如下:

val words = data.flatMap(value = > value.split( "\\s+" ))
val groupedWords = words.groupByKey( _ .toLowerCase)

有得同学可能注意到,我们并没有创建出一个key/value键值对,因为DataSet是工作在行级别的抽象,每个值将被看作是带有多列的行数据,而且每个值都可以看作是group的key,正如关系型数据库的group。

第四步、计数

一旦我们有了分组好的数据,我们可以使用count方法对每个单词进行计数,正如在RDD上使用reduceByKey

val counts = groupedWords.count()

第五步、打印结果

  正如RDD一样,上面的操作都是懒执行的,所以我们需要调用action操作来触发上面的计算。在dataset API中,show函数就是action操作,它会输出前20个结果;如果你需要全部的结果,你可以使用collect操作:

counts.show()

完整的代码

package com.iteblog.spark
 
import org.apache.spark.sql.SparkSession
 
/**
   * Created by http://www.iteblog.com
   */
object DataSetWordCount {
 
   def main(args : Array[String]) {
 
     val sparkSession = SparkSession.builder.
       master( "local" )
       .appName( "example" )
       .getOrCreate()
 
     import sparkSession.implicits. _
     val data = sparkSession.read.text( "src/main/resources/data.txt" ).as[String]
 
     val words = data.flatMap(value = > value.split( "\\s+" ))
 
     val groupedWords = words.groupByKey( _ .toLowerCase)
 
     val counts = groupedWords.count()
 
     counts.show()
 
   }
 
}
 转载自过往记忆(http://www.iteblog.com/)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,DatasetSpark 2.0引入的一个新的API,它是强类型的数据集合,旨在弥补DataFrame和RDD之间的差距,同时提供类型安全和面向对象的编程模型。 与DataFrame不同,Dataset不仅提供了类似于SQL的查询功能,还提供了更多的面向对象的API,因此更适合于开发人员进行复杂的数据分析和操作。 Dataset还具有更好的类型安全性,因为它们是强类型的,这意味着编译器可以在编译时捕获类型不匹配的错误,而不是在运行时抛出异常。 在使用Dataset时,我们可以使用Scala或Java编写类型安全的代码,并在运行时获得更好的性能。 下面是一个简单的Java示例,演示如何使用Dataset: ``` // 创建一个SparkSession对象 SparkSession spark = SparkSession.builder() .appName("Java Dataset Example") .master("local") .getOrCreate(); // 读取一个CSV文件,并将其转换为Dataset Dataset<Row> df = spark.read().format("csv") .option("header", "true") .load("path/to/file.csv"); // 将Dataset转换为类型安全的Java对象 Encoder<MyObject> myObjectEncoder = Encoders.bean(MyObject.class); Dataset<MyObject> myObjects = df.as(myObjectEncoder); // 进行复杂的操作 Dataset<MyObject> filtered = myObjects.filter(myObject -> myObject.getAge() > 18); // 将结果保存到文件中 filtered.write().format("csv").save("path/to/output"); ``` 在这个示例中,我们首先读取一个CSV文件,并将其转换为DataFrame。然后,我们使用Encoder将DataFrame转换为类型安全的Java对象。接着,我们进行过滤操作,只选择年龄大于18岁的对象,并将结果保存到文件中。 希望这个简单的示例可以帮助你了解如何使用Dataset进行数据操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值