使用fastjson读取复杂的JSON格式数据并将结果数据使用spark存入hive表

有风入弦

已于 2023-07-25 08:35:00 修改

阅读量1.1k

点赞数 1

文章标签： json

于 2023-05-11 11:17:55 首次发布

本文链接：https://blog.csdn.net/lx2wenhui/article/details/130616416

版权

该文章展示了如何在Scala项目中使用Fastjson库解析复杂的JSON数据，提取所需字段，然后将解析后的数据保存到Hive表中。首先在pom.xml中添加Fastjson依赖，接着通过示例代码说明如何解析嵌套的JSON对象和数组，最后阐述了如何将解析得到的字符串转换为RDD，进而创建DataFrame并利用SparkSQL将数据加载到Hive表中。

摘要由CSDN通过智能技术生成

1.导入fastjson包

2.对json数据进行解析

3.将解析之后的数据保存至hive表中

公司有些数据是以复杂的JSON格式保存的,需要对里面有用的数据进行准确提取

使用的语言为scala

1.导入fastjson包

在pom.xml文件中的依赖模块加入

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.36</version>
        </dependency>

之后就可以在类中直接导入fastjson包

import com.alibaba.fastjson.{JSON, JSONArray, JSONObject}

2.对json数据进行解析

复杂的JSON格式数据示例如下所示

{
    "count": 102,
    "items": [
        {
            "pipeline": 1,
            "dataCorporationId": null,
            "form": {
                "code": "B640312",
                "id": "0342",
                "name": "通讯费用"
                    }
        },
        {
            "pipeline": 2,
            "dataCorporationId": null,
            "form": {
                "code": "B660342",
                "id": "0341",
                "name": "出勤费用"
                    }
        }]
}

比如说我们需要取code的值, 正常的json解析包括spark对json的数据读取也很难解析出来, 所以选择了fastjson进行辅助,

具体代码如下:

package com.xhgj.bigdata.util

import com.alibaba.fastjson.{JSON, JSONArray, JSONObject}

import scala.collection.mutable.ArrayBuffer

object JsonParse {

  def main(args: Array[String]): Unit = {
    //读取json文件的路径,以本机的json文件作为演示
    val lines: String = Source.fromFile("D:\\resopnses.json").mkString
    get_code(lines)
  }
  def get_code(jsonstr:String) = {
    //将{}的字符串解析成json
    val jsonOBJ: JSONObject = JSON.parseObject(jsonstr)
    //由于items的值是[]组成的需要,获取items下面的jsonobj数组,按照{}来识别的
    val itemsJsonOBJArray: JSONArray = jsonOBJ.getJSONArray("items")
    //获取总共有几个json数组(示例中有两个单位)
    val len = itemsJsonOBJArray.length
    //循环获取每个json
    for (i <- 0 until len ){
     //按照输入的i来获取指定下标的json
      val firstjsonOBJ = itemsJsonOBJArray.getJSONObject(i)
      //获取key为form的值字符串
      val obj1: String = firstjsonOBJ.getString("form")
       //对获取的值进行JSON解析
      val formjsonOBJ = JSON.parseObject(obj1)
        //获取最终索要的数据
      val code = formjsonOBJ.getString("code")
      println("code=" + code)
     }
  }
}

执行结果为

总而言之,

遇到{}花括号, 需要将其getString变成字符串,再解析成jsonObject
遇到[]方括号,需要将其解析成.getJSONArray,再取下标获取对应的JSON解析, 剩下的以此类推,再复杂的json串也能解析出来

3.将解析之后的数据保存至hive表中

由于上面获取的都是string格式, 我们需要将其转换成RDD再转换成DataFrame格式, 因为我使用的是sparksql

在生产中, 肯定取的不是一个字段, 而是多个, 则需要做额外处理:


//就在上方代码补充即可,比如还需要这几个字段
//先在for循环语句上方加入,需要返回三个字段
val arrb = new ArrayBuffer[(String, String, String)]()
//在for语句内部增加    
      val id = formjsonOBJ.getString("id")
      val name = formjsonOBJ.getString("name")
      arrb.append((code,id ,name ))
//在for语句之后增加
    arrb.toArray

此时我们写的这个方法返回的是一个Array[(String, String, String)]类型, 我们就可以返回spark代码中, 将这个数据解析成RDD,再使用createDataFrame转换成DF格式, 最后使用sparksql将数据导入hive表中, 代码如下:

import com.xhgj.bigdata.util.{JsonParse, TableName}
import org.apache.spark.sql.types._
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import scala.io.Source

object TEST {
  def main(args: Array[String]): Unit = {
    //创建schema, 用于rdd转df
    val schema = StructType(Array(
      StructField("code", StringType, nullable = true),
      StructField("id", StringType, nullable = true),
      StructField("name", StringType, nullable = true)
    ))
    val spark = SparkSession.builder().appName("Spark Hive DEMO").enableHiveSupport().getOrCreate()
    val sc = spark.sparkContext
    //读取json数据
    val lines: String = Source.fromFile("D:\\result.json").mkString
    //执行之前写的方法,并将返回的array数组一个个解析成RDD格式
    val res = sc.parallelize(JsonParse.get_code(lines))
    val resRDD = res.map(tup => Row(tup._1,tup._2,tup._3,tup._4,tup._5))
    //rdd转df
    val resDF: DataFrame = spark.createDataFrame(resRDD,schema)
    run(resDF,spark)
    sc.stop()
    spark.stop()
  }
    //sparksql方法将数据转入hive表
  def run(resDF: DataFrame,spark:SparkSession): Unit = {
    resDF.createOrReplaceTempView("FEETY")
 
    spark.sql(
      s"""
        |INSERT OVERWRITE TABLE MYTEST.TABLENAME
        |SELECT
        | *
        |FROM
        | FEETY
        |""".stripMargin)
  }
}

至此, 复杂json格式解析搞定