SparkSQL之JSON

package com.uplooking.bigdata.sql.p2

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 加载数据源为json格式的数据
  * 在使用json作为加载的数据源的时候,
  *   1、sparksql会自动识别json中的数据及类型,会将其转化为sql中的元数据
  *
  *   2、必须要保证每一行都是一条json数据,不要把多条json数据写在一行,容易出现问题
  * 常见的问题就是:数据加载有遗漏
  *
  */
object ScalaSparkSQLJson {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("ScalaSparkSQLJsonOps").setMaster("local")
    conf.set("spark.sql.shuffle.partitions", "1")

    val sc = new SparkContext(conf)
    val sqlContext = new HiveContext(sc)
//    val jsonDF = sqlContext.read.format("json").load("E:/test/spark/sql/sqldf.json")
    val jsonDF = sqlContext.read.json("E:/test/spark/sql/sqldf.json")
//    jsonDF.show()
//    jsonDF.sort("height", "age").show()
    import sqlContext.implicits._
    //写比较自定义的排序的时候,需要首先引入sqlContext中的隐士转换,增强df的功能
//      jsonDF.sort($"height".desc).show()
//    jsonDF.sort($"age".asc, $"height".desc).show()
    val retDF = jsonDF.sort($"age".asc, $"height".desc)

    /**
      * conf.set("spark.sql.shuffle.partitions", "1")
      * 可以通过设置spark.sql.shuffle.partitions来指定输出文件的个数
      */
//    retDF.write.json("E:/test/spark/sql/ret-sqldf.json")
    retDF.write.orc("E:/test/spark/sql/ret-sqldf.orc")
    sc.stop()
  }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值