SparkSQL基本教程(一)

1 JSON数据的处理

学习目标

  • 了解Spark SQL处理JSON数据方式
  • 应用Spark SQL实现处理JSON数据案例

1 Spark SQL 处理JSON数据介绍

  • Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame

  • 加载JSON数据时如何处理DataFrame的schema

    1,通过反射自动推断,适合静态数据

    2,程序指定,适合程序运行中动态生成的数据

加载json数据相关API介绍

#使用内部的schema
jsonDF = spark.read.json("xxx.json")
jsonDF = spark.read.format('json').load('xxx.json')

#指定schema
jsonDF = spark.read.schema(jsonSchema).json('xxx.json')

2 Spark SQL 处理JSON数据案例

  • 静态json数据的读取和操作
  • 无嵌套结构的json数据
from pyspark.sql import SparkSession
spark =  SparkSession.builder.appName('json_demo').getOrCreate()
sc = spark.sparkContext

# ==========================================
#                无嵌套结构的json
# ==========================================
jsonString 
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值