spark 三种创建 数据集的方法,及测试(Scala代码)

1 通过创建RDD执行查询

/**
  *
  * 优点:
  *
  * 编译时类型安全
  * 编译时就能检查出类型错误
  * 面向对象的编程风格
  * 直接通过类名点的方式来操作数据
  * 缺点:
  *
  * 序列化和反序列化的性能开销
  * 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.
  * GC的性能开销
  * 频繁的创建和销毁对象, 势必会增加GC
  */
def rddTest(): Unit ={
  val conf = new SparkConf().setAppName("test").setMaster("local")
  val sc = new SparkContext(conf)
  sc.setLogLevel("WARN")
  val sqlContext = new SQLContext(sc)

  case class Person(id: Int, age: Int)
  val idAgeRDDPerson = sc.parallelize(Array(Person(1, 30), Person(2, 29), Person(3, 21)))
  // 优点1
  // idAge.filter(_.age > "") // 编译时报错, int不能跟String比
  // 优点2
  idAgeRDDPerson.filter(_.age > 25).take(1000).foreach(println); // 直接操作一个个的person对象
}

2  通过  DataFrame引入了schema和off-heap

**
  *
  * DataFrame引入了schema和off-heap
  *
  * schema : RDD每一行的数据, 结构都是一样的. 这个结构就存储在schema中. Spark通过schame就能够读懂数据, 因此在通信和IO时就只需要序列化和反序列化数据, 而结构的部分就可以省略了.
  *
  * off-heap : 意味着JVM堆以外的内存, 这些内存直接受操作系统管理(而不是JVM)。Spark能够以二进制的形式序列化数据(不包括结构)到off-heap中, 当要操作数据时, 就直接操作off-heap内存. 由于Spark理解schema, 所以知道该如何操作.
  *
  * off-heap就像地盘, schema就像地图, Spark有地图又有自己地盘了, 就可以自己说了算了, 不再受JVM的限制, 也就不再收GC的困扰了.
  *
  * 通过schema和off-heap, DataFrame解决了RDD的缺点, 但是却丢了RDD的优点. DataFrame不是类型安全的, API也不是面向对象风格的.
  */
def dataFrameTest(): Unit ={

  val conf = new SparkConf().setAppName("test").setMaster("local")
  val sc = new SparkContext(conf)
  sc.setLogLevel("WARN")
  val sqlContext = new SQLContext(sc)

  val idAgeRDDRow = sc.parallelize(Array(Row(1, 30), Row(2, 29), Row(4, 21)))

  val schema = StructType(Array(StructField("id", DataTypes.IntegerType), StructField("age", DataTypes.IntegerType)))

  val idAgeDF = sqlContext.createDataFrame(idAgeRDDRow, schema)
  // API不是面向对象的
  idAgeDF.filter(idAgeDF.col("age") > 25).take(1000).foreach(println);
  // 不会报错, DataFrame不是编译时类型安全的
  idAgeDF.filter(idAgeDF.col("age") > "").take(1000).foreach(println);
}
3 DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder
**
  * DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder
  *
  * 当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象. Spark还没有提供自定义Encoder的API, 但是未来会加入.
  *
  * 下面看DataFrame和DataSet在2.0.0-preview中的实现
  */
def dataSetTest(): Unit ={

  val conf = new SparkConf().setAppName("test").setMaster("local") // 调试的时候一定不要用local[*]
  val sc = new SparkContext(conf)
  val sqlContext = new SQLContext(sc)
  import sqlContext.implicits._

  val idAgeRDDRow = sc.parallelize(Array(Row(1, 30), Row(2, 29), Row(4, 21)))

  //
  val schema = StructType(Array(StructField("id", DataTypes.IntegerType), StructField("age", DataTypes.IntegerType)))

  // 在2.0.0-preview中这行代码创建出的DataFrame, 其实是DataSet[Row]
  val idAgeDS = sqlContext.createDataFrame(idAgeRDDRow, schema)

  idAgeDS.registerTempTable("test")

  sqlContext.sql("SELECT * FROM test").show()

  // 在2.0.0-preview中, 还不支持自定的Encoder, Row类型不行, 自定义的bean也不行
  // 官方文档也有写通过bean创建Dataset的例子,但是我运行时并不能成功
  // 所以目前需要用创建DataFrame的方法, 来创建DataSet[Row]
  // sqlContext.createDataset(idAgeRDDRow)

  // 目前支持String, Integer, Long等类型直接创建Dataset
  //Seq(1, 2, 3).toDS().take(1000).foreach(println);
  //sqlContext.createDataset(sc.parallelize(Array(1, 2, 3))).take(1000).foreach(println);
}

4 通过Main 方法调用

def main(args: Array[String]): Unit = { //创建spark的运行环境
  rddTest()
  dataFrameTest()
  dataSetTest()
}




阅读更多
文章标签: Spark
个人分类: 大数据
上一篇spark 学习资料
下一篇Spark demo java
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭