Spark 之解析json的复杂和嵌套数据结构

最新推荐文章于 2024-07-23 10:13:17 发布

思达滴

最新推荐文章于 2024-07-23 10:13:17 发布

阅读量1.3k

点赞数

分类专栏： spark 大数据文章标签： json spark 大数据

本文链接：https://blog.csdn.net/m0_73469590/article/details/130091290

版权

Spark 之解析json的复杂和嵌套数据结构

摘要由CSDN通过智能技术生成

本文主要使用以下几种方法：

1，get_json_object()：从一个json 字符串中根据指定的json 路径抽取一个json 对象

2，from_json()：从一个json 字符串中按照指定的schema格式抽取出来作为DataFrame的列

3，to_json()：将获取的数据转化为json格式

4，explode()：炸裂成多行

5，selectExpr()：将列转化为一个JSON对象的另一种方式

文件名是 mystudent.txt 具体内容如下，只有一条数据

1|{"dept":{"describe":"主要负责教学","name":"学术部"},"email":"zhangsan@edu.cn","id":79,"name":"zhangsan","stus":[{"grade":"三年级","id":12,"name":"xuesheng1","school":{"address":"南京","leader":"王总","name":"南京大学"}},{"grade":"三年级","id":3,"name":"xuesheng2","school":{"address":"南京","leader":"王总","name":"南京大学"}},{"grade":"三年级","id":1214,"name":"xuesheng3","school":{"address":"南京","leader":"王总","name":"南京大学"}}],"tel":"1585050XXXX"}

大概是这样的结构：

第一步：导入文件并分割成二元组转换成两列

val optionRDD: RDD[String] = sc.textFile("in/mystudent.txt")
optionRDD.foreach(println)

//分割，注意  |  用的是单引号
val option1: RDD[(String, String)] = optionRDD.map(x => {
      val arr = x.split('|');
      (arr(0), arr(1))
    })
option1.foreach(println)

//转化成两列
val jsonStrDF: DataFrame = option1.toDF("aid", "value")
        jsonStrDF.printSchema()
        jsonStrDF.show(false)

第二步：按照几个大类先拆分

 val jsonObj: DataFrame = jsonStrDF.select(
      $"aid"
      , get_json_object($"valu

最低0.47元/天解锁文章

思达滴

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark 之解析json的复杂和嵌套数据结构

Spark 之解析json的复杂和嵌套数据结构
复制链接

扫一扫

专栏目录

Spark 之 解析json的复杂和嵌套数据结构

Spark 之解析json的复杂和嵌套数据结构