SparkSQL之排序，保存数据

最新推荐文章于 2023-04-29 11:55:15 发布

维维weiwei

最新推荐文章于 2023-04-29 11:55:15 发布

阅读量3.1k

点赞数

分类专栏： Spark生态系统

本文链接：https://blog.csdn.net/tangshiweibbs/article/details/70239451

版权

Spark生态系统专栏收录该内容

24 篇文章 0 订阅

订阅专栏

def main(args: Array[String]): Unit = {
  val conf = new SparkConf().setAppName("ScalaSparkSQLJson").setMaster("local")
  conf.set("spark.sql.shuffle.partitions", "1")
  val sc = new SparkContext(conf)
  val sqlContext = new HiveContext(sc)

  val jsonDF = sqlContext.read.json("E:/test/spark/sql/sqldf.json")
  jsonDF.sort("height", "age").show()

  import sqlContext.implicits._
  //写比较自定义的排序的时候，需要首先引入sqlContext中的隐士转换，增强df的功能
  jsonDF.sort($"height".desc).show()
  jsonDF.sort($"age".asc, $"height".desc).show()
  val retDF = jsonDF.sort($"age".asc, $"height".desc)

  //conf.set("spark.sql.shuffle.partitions", "1")
  //可以通过设置spark.sql.shuffle.partitions来指定输出文件的个数

  retDF.write.json("E:/test/spark/sql/sqldf.json")
  retDF.write.orc("E:/test/spark/sql/sqldf.orc")
  sc.stop()
}