sparksql json，hive数据源

最新推荐文章于 2023-04-13 15:36:03 发布

BBlue-Sky

最新推荐文章于 2023-04-13 15:36:03 发布

阅读量1k

点赞数

分类专栏： spark-sql 文章标签： spark json hive 数据

本文链接：https://blog.csdn.net/qq_33813365/article/details/70484298

版权

本文介绍了如何使用Spark SQL读取和处理JSON数据集，包括从JSON文件中创建DataFrame，注册为临时表并执行SQL查询。同时，也详细阐述了Spark SQL对Hive表的支持，包括创建、加载数据以及执行HiveQL查询的操作步骤。

摘要由CSDN通过智能技术生成

JSON数据集
Spark SQL能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。

需要注意的是，这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。如果用多行描述一个JSON对象，会导致读取出错。读取JSON数据集示例如下：

Scala
// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// A JSON dataset is pointed to by path.
// The path can be either a single text file or a directory storing text files.
val path = “examples/src/main/resources/people.json”
val people = sqlContext.read.json(path)

// The inferred schema can be visualized using the printSchema() method.
people.printSchema()
// root
// |– age: integer (nullable = true)
// |– name: string (nullable = true)

// Register this DataFrame as a table.
people.registerTempTable(“people”)

// SQL statements can be run b

最低0.47元/天解锁文章

BBlue-Sky

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparksql json，hive数据源

JSON数据集 Spark SQL能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。需要注意的是，这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。如果用多行描述一
复制链接

扫一扫