def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ScalaSparkSQLJson").setMaster("local") conf.set("spark.sql.shuffle.partitions", "1") val sc = new SparkContext(conf) val sqlContext = new HiveContext(sc) val jsonDF = sqlContext.read.json("E:/test/spark/sql/sqldf.json") jsonDF.sort("height", "age").show() import sqlContext.implicits._ //写比较自定义的排序的时候,需要首先引入sqlContext中的隐士转换,增强df的功能 jsonDF.sort($"height".desc).show() jsonDF.sort($"age".asc, $"height".desc).show() val retDF = jsonDF.sort($"age".asc, $"height".desc) //conf.set("spark.sql.shuffle.partitions", "1") //可以通过设置spark.sql.shuffle.partitions来指定输出文件的个数 retDF.write.json("E:/test/spark/sql/sqldf.json") retDF.write.orc("E:/test/spark/sql/sqldf.orc") sc.stop() }
SparkSQL之排序,保存数据
最新推荐文章于 2023-04-29 11:55:15 发布