Spark高级操作之json复杂和嵌套数据结构的操作

最新推荐文章于 2024-08-02 21:00:00 发布

大数据与云计算开发者Cd

最新推荐文章于 2024-08-02 21:00:00 发布

阅读量759

点赞数

文章标签： spark json 数据结构大数据

本文链接：https://blog.csdn.net/qq_56795768/article/details/121927019

版权

本文介绍了Spark处理复杂和嵌套json数据的方法，包括get_json_object(), from_json(), to_json(), explode()和selectExpr()函数。通过实例演示了如何使用这些函数来操作json数据，如提取字段、创建DataFrame等，展示了在大数据处理中的应用。" 125296773,12902314,H.264码流分析：图像帧类型与宏块编码探究,"['视频编码', '压缩技术', '图像处理', 'H.264标准']

摘要由CSDN通过智能技术生成

一，基本介绍

spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在spark 的Structured Streaming也可以使用这些功能函数。

下面主要介绍：

A：get_json_object()

B：from_json()

C：to_json()

D：explode()

E：selectExpr()

二，实例演示

首先，创建一个没有任何嵌套的JSon Schema，在xshell和idea里面做一样的操作

import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._

scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._

scala> import org.apache.spark.sql.functions._
import org.apache.spark.sql.functions._

val jsonSchema = new StructType().add("battery_level", LongType).add("c02_level",LongType).add("cca3",StringType).add("cn", StringType).add("device_id",LongType).add("device_type", StringType).add("signal", LongType).add("ip",StringType).add("temp", LongType).add("timestamp", TimestampType)

会在后面from_json（）用到

scala> val jsonSchema = new StructType().add("battery_level", LongType).add("c02_level",LongType).add("cca3",StringType)
.add("cn", StringType).add("device_id",LongType)
.add("device_type", StringType).add("signal", LongType)
.add("ip",StringType).add("temp", LongType).add("timestamp", TimestampType)

使用上面的schema，我在这里创建一个Dataframe，使用的是scala 的case class，同时会产生一些json格式的数据。当然，生产中这些数据也可以来自于kafka。这个case class总共有两个字段：整型(作为device id)和一个字符串(json的数据结构，代表设备的事件)

创建一个样例类

case class DeviceData (id: Int, device: String)

然后插入数据

val eventsDS = Seq (
  (0, """{"device_id": 0, "device_type": "sensor-ipad", "ip": "68.161.225.1", "cca3": "USA", "cn": "United States", "temp": 25, "signal": 23, "battery_level": 8, "c02_level": 917, "timestamp" :1475600496 }"""),
  (1, """{"device_id": 1, "device_type": "sensor-igauge", "ip": "213.161.254.1", "cca3": "NOR", "cn": "Norway", "temp": 30, "signal": 18, "battery_level": 6, "c02_level": 1413, "timestamp" :1475600498 }"""),
  (2, """{"device_id": 2, "device_type": "sensor-ipad", "ip": "88.36.5.1", "cca3": "ITA", "cn": "Italy", "temp&#

最低0.47元/天解锁文章

大数据与云计算开发者Cd

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark高级操作之json复杂和嵌套数据结构的操作

一，基本介绍spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在spark的Structured Streaming也可以使用这些功能函数。下面主要介绍：A：get_json_object()B：from_json()C：to_json()D：explode()E：selectExpr()二，实例演示首先，创建一个没有任何嵌套的JSon Schema，在xshell和idea里.
复制链接

扫一扫