SparkRDD、SchemaRDD（dataFrame）和SparkSQL 之间的关系

最新推荐文章于 2024-07-17 15:48:26 发布

G_scsd

最新推荐文章于 2024-07-17 15:48:26 发布

阅读量2.8k

点赞数 3

分类专栏： spark 文章标签： SparkRDD SchemaRDD（DataFrame） SparkSQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gscsd_T/article/details/80040766

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

普通数据--》SparkRDD-》SchemaRDD（dataFrame）-》sparkSQL

1. 普通数据的获取

首先我们要先获取到一些数据，有以下这些方法：

a) 导入本地的文件

这种方法我也不会用，但是有这种，我们一般用后面那几种

b) 导入hdfs文件

也可不写hdfs://python2:9050这些

c) 直接转换（普通数据）

2. 普通数据—》SparkRDD

获取到数据后，那么就将可以将它们转换成SparkRDD类型了,转换的方法目前知道的只有一种，那就是sc.parallelize(data)，将数据转换成SparkRDD后，我们就可以使用sparkRDD的方法了，比如以下这些方法：

但这些方法对于大多数人来说还是太繁琐了，对于那些想用spark的人而又不会编程的人来说是望而却步，所以SparkSQL就因运而生了，只需要会MySQL操作就可以，但是SparkSQL是一种有数据结构的类型，而我们原生的SparkRDD是没有数据结构的，所以我们就得将SparkRDD装换成有结构的类型，这个类型就叫做DataFrame，也称之为SchemaRDD。

3. SparkRDD—》SchemaRDD(DataFrame)

产生的DataFrame有以下几种方法

1. 从已存在的RDD产生

a) 从行对象推出数据结构并安插到原RDD上形成SchemaRDD即DataFrame

使用createDataFrame：

或：

也可不用Row,如：

b) 用编程的方法产生数据结构并用在DataFrame生成函数的参数中以形成一SchemaRDD

使用toDF:

2. 读入json、parquet、AVRO或CSV文件时可以直接读成Schema即DataFrame，这是因为这些文件本身就是带有结构的

这里演示了读入CSV文件：

3. 将python或R中的DataFrame转换成spark中的SchemaRDD

这个没有python数据，就不演示了，感兴趣的自己去看官方文档

我们将sparkRDD装换成dataFrame后，虽然不能用sparkSQL，但使用其方法看起来也比直接对sparkRDD操作看起来高大上一点，比如一些groupBy、count之类的方法。

列：

4. SchemaRDD(DataFrame)—》SparkSQL

实现SparkRDD：

1. 产生SchemaRDD—为了实现SparkSQL必须将一般的RDD装换成带数据结构的数据集DataFrame

2. SchemaRDD本身就是一个RDD，但它本身包含是由行对象（row object）组成。每个行对象代表一条记录

3. SchemaRDD提供了提供了一些新的操作应用函数使得数据操作和分析更高效和简洁

4. 可以将SchemaRDD注册成表，这样就可以用SQL访问RDD的数据了，而结果集本身就是SchemaRDD即DataFrame

5. 可以用各种方法生成SchemaRDD

总结了上面几条内容，发现要使用SparkSQL,就得将SchemaRDD注册成一个表,使用registerTempTable方法：

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

121
原创

339
点赞

1364
收藏

298
粉丝

关注

私信

热门文章

分类专栏

MySQL 1篇
python 66篇
大数据 1篇
pyspark 16篇
Mongo 1篇
ElasticSearch 1篇
docker 2篇
tornado 1篇
python学习 30篇
MySQL数据库 9篇
Django 16篇
Linux 5篇
hadoop 13篇
spark 7篇
Hive 5篇
kafka 2篇
flume 2篇
爬虫 18篇
java 1篇
学习 6篇
程序人生 1篇

最新评论

Python连接MySQL数据库连接池
G_scsd: 应该是，具体的你可以问问ChatGPT，相信能给你更好的答案
Python连接MySQL数据库连接池
魣鮟: 大佬您的意思是不管是不是不同的连接事务都会持续的运行下去是吗
Python连接MySQL数据库连接池
G_scsd: 那有可能是你用的时候刚好连接池断掉了，你加个异常等待试试
Python连接MySQL数据库连接池
魣鮟: 这样吗大佬，我实验的结果是新生成的连接并不能支持当前事务继续执行下去了，会抛出错误来。。。这是啥情况嘞？？
Python连接MySQL数据库连接池
G_scsd: 如果连接池不可用，服务会在超时结束前等待有效的连接池过来，连接是新的，你可以把连接看做一个令牌，有就行，不用管是不是新旧，只要有效会就接着执行，更何况你还没提交呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。