Spark SQL入门用法与原理分析

最新推荐文章于 2024-09-01 00:53:33 发布

写代码的可可

最新推荐文章于 2024-09-01 00:53:33 发布

阅读量2.5w

点赞数 3

分类专栏： sparkSQL 文章标签： sparkSQL Dataframe Catalyst SparkSQL原理 SparkSQLAPI使用

本文链接：https://blog.csdn.net/silviakafka/article/details/54091005

版权

本文介绍Spark SQL的基础用法，包括API、原理、Catalyst编译器的作用，以及使用JSON文件时遇到的问题。Spark SQL提供SQL和DataFrame API，所有操作通过Catalyst转换为Spark任务。它借用Hive的元数据和解析器，但大部分实现了独立运行。文件实验揭示了Spark SQL处理JSON数据的限制，要求每行必须是独立的JSON对象且不能换行。

摘要由CSDN通过智能技术生成

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的，开发人员只需要写一句SQL语句或者调用API，就能生成（翻译成）对应的SparkJob代码并去执行，开发变得更简洁

注意：本文全部基于SparkSQL1.6

参考：http://spark.apache.org/docs/1.6.0/

一. API

Spark SQL的API方案：3种

SQL

the DataFrames API

the Datasets API.

但会使用同一个执行引擎

the same execution engine is used

（一）数据转为Dataframe

1、（半）格式化数据（HDFS文件）

SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc)

// Parquet files are self-describing so the schema is preserved.文件格式自带描述性
DataFrame df= sqlContext.read().parquet("people.parquet");
//SQLContext.read().json() on either an RDD of String, or a JSON file. not a typical JSON file（见下面的小实验）
DataFrame df = sqlContext.read().json("/testDir/people.json");

Load默认是parquet格式，通过format指定格式

DataFrame df = sqlContext.read().load("examples/src/main/resources/users.parquet");
DataFrame df = sqlContext.read().format("json").load("main/resources/people.json");

旧API 已经被废弃

DataFrame df2 =sqlContext.jsonFile("/xxx.json");
DataFrame df2 =sqlContext.parquetFile("/xxx.parquet");

2、RDD数据

SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc)

a. 通过类利用JAVA类的反射机制

已有：JavaRDD<Person> people

DataFrame df= sqlContext.createDataFrame(people, Person.class);

b. 通过schema转换RDD

已有：StructType schema = DataTypes.createSt

最低0.47元/天解锁文章

写代码的可可

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录