Spark SQL结构化数据文件处理

目录

一,Spark SQL概述

1,Spark SQL简介

2,Spark SQL架构 

二,DataFrame概述 

1,DataFrame简介​

2,DataFrame的创建 

(1)数据准备

(2)通过文件直接创建DataFrame 

(3)RDD直接转换为DataFrame ​

3,DataFrame的常用操作 

(1)DSL风格操作

三,Dataset概述 

1,RDD、DataFrame及Dataset的区别

(1)通过SparkSession中的createDataset来创建Dataset

​(2)DataFrame通过“as[ElementType]”方法转换得到Dataset​

四, RDD转换DataFrame​


一,Spark SQL概述

1,Spark SQL简介

Spark SQLSpark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQLDataFrames APIDatasets API三种方式实现结构化数据处理。

2,Spark SQL架构 

Spark SQL架构Hive架构相比,把底层的MapReduce执行引擎更改为Spark,还修改Catalyst优化器Spark SQL快速的计算效率得益于Catalyst优化器。从HiveQL被解析成语法抽象树起,执行计划生成和优化的工作全部交给Spark SQLCatalyst优化器进行负责和管理。

二,DataFrame概述 

1,DataFrame简介

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值