SparkSQL之JSON

最新推荐文章于 2024-08-02 21:00:00 发布

维维weiwei

最新推荐文章于 2024-08-02 21:00:00 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/tangshiweibbs/article/details/71598627

版权

package com.uplooking.bigdata.sql.p2

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}

/**
* 加载数据源为json格式的数据
* 在使用json作为加载的数据源的时候，
*   1、sparksql会自动识别json中的数据及类型，会将其转化为sql中的元数据
*
*   2、必须要保证每一行都是一条json数据，不要把多条json数据写在一行，容易出现问题
* 常见的问题就是：数据加载有遗漏
*
*/
object ScalaSparkSQLJson {
def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("ScalaSparkSQLJsonOps").setMaster("local")
    conf.set("spark.sql.shuffle.partitions", "1")

    val sc = new SparkContext(conf)
    val sqlContext = new HiveContext(sc)
//    val jsonDF = sqlContext.read.format("json").load("E:/test/spark/sql/sqldf.json")
    val jsonDF = sqlContext.read.json("E:/test/spark/sql/sqldf.json")
//    jsonDF.show()
//    jsonDF.sort("height", "age").show()
    import sqlContext.implicits._
    //写比较自定义的排序的时候，需要首先引入sqlContext中的隐士转换，增强df的功能
//      jsonDF.sort($"height".desc).show()
//    jsonDF.sort($"age".asc, $"height".desc).show()
    val retDF = jsonDF.sort($"age".asc, $"height".desc)

    /**
      * conf.set("spark.sql.shuffle.partitions", "1")
      * 可以通过设置spark.sql.shuffle.partitions来指定输出文件的个数
      */
//    retDF.write.json("E:/test/spark/sql/ret-sqldf.json")
    retDF.write.orc("E:/test/spark/sql/ret-sqldf.orc")
    sc.stop()
}
}

维维weiwei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL之JSON

package com.uplooking.bigdata.sql.p2import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.{SparkConf, SparkContext}/** * 加载数据源为json格式
复制链接

扫一扫