PySpark之SparkSQL的数据抽象

最新推荐文章于 2024-05-10 03:12:27 发布

飞Link

最新推荐文章于 2024-05-10 03:12:27 发布

阅读量881

点赞数

分类专栏： Spark计算引擎文章标签： big data spark hive 大数据 pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feizuiku0116/article/details/122853547

版权

Spark计算引擎专栏收录该内容

52 篇文章 6 订阅

订阅专栏

一、SparkSQL和Hive的异同

Hive和Spark均是：“分布式SQL计算引擎”
均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能
都可以运行在YARN上

二、SparkSQL的数据抽象

一、Pandas-DataFrame

二维表数据结构
单机（本地）集合

二、SparkCore-RDD

无标准数据结构，存储什么数据均可
分布式集合（分区）

三、SparkSQL-DataFrame

二维表数据结构
分布式集合（分区）

四、SparkSQL For JVM - Dataset

SparkSQL其实有三类数据抽象对象
- SchemaRDD对象（已废弃）
- DataSet对象：可用于Java、Scala语言
- DataFrame对象：可用于Java、Scala、Python

三、DataFrame

一、RDD

有分区的
分布式的
弹性的
存储任意结构数据

三、DataFrame

有分区的
分布式的
弹性的
存储二维表结构数据

四、DataFrame VS DataSet VS RDD

在这里插入图片描述

RDD按对象原有形式进行存储（如存储Person类对象）
DataFrame按照表格形式组织数据格式
DataSet同样按照表格形式组织数据，只是对比DataFrame多了泛型的支持。由于Python不支持泛型特性，所以，对于Python语言来说，使用DataFrame就比较合适。除了泛型方面，DataFrame和DataSet没有区别

五、SparkSession对象

在RDD阶段，程序的执行入口对象是：SparkContext

在Spark2.0之后，推出了SparkSession对象，作为Spark编码的统一入口对象

SparkSession对象可以：

用于SparkSQL编程作为入口对象
用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PySpark之SparkSQL的数据抽象

一、SparkSQL和Hive的异同Hive和Spark均是：“分布式SQL计算引擎”均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能都可以运行在YARN上二、SparkSQL的数据抽象一、Pandas-DataFrame二维表数据结构单机（本地）集合二、SparkCore-RDD无标准数据结构，存储什么数据均可分布式集合（分区）三、SparkSQL-DataFrame二维表数据结构分布式集合（分区）四、SparkSQL For JVM
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。