1 JSON数据的处理
学习目标
- 了解Spark SQL处理JSON数据方式
- 应用Spark SQL实现处理JSON数据案例
1 Spark SQL 处理JSON数据介绍
-
Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame
-
加载JSON数据时如何处理DataFrame的schema
1,通过反射自动推断,适合静态数据
2,程序指定,适合程序运行中动态生成的数据
加载json数据相关API介绍
#使用内部的schema
jsonDF = spark.read.json("xxx.json")
jsonDF = spark.read.format('json').load('xxx.json')
#指定schema
jsonDF = spark.read.schema(jsonSchema).json('xxx.json')
2 Spark SQL 处理JSON数据案例
- 静态json数据的读取和操作
- 无嵌套结构的json数据
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('json_demo').getOrCreate()
sc = spark.sparkContext
# ==========================================
# 无嵌套结构的json
# ==========================================
jsonString