Spark sql结构化数据文件处理

2302_78145993

已于 2024-05-13 23:07:59 修改

阅读量373

点赞数 5

文章标签： spark sql 大数据

于 2024-05-11 14:49:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_78145993/article/details/138715713

版权

目录

1理解sparksql 基本概念

1.1sparksql概念

2掌握dataframedataset基本方式

Datdaframe简介

dataframe创建步骤

新建spark目录网站上查看

新建person文件

在/spark目录下查看文件是否上传

2．通过文件直接创建DataFrame

Dataframe的查询

dataframe数据实操

RDD、DataFrame及Dataset的区别

3掌握rdd转换dataframe的方式及sparksql操作数据源

创建dataset的方式

2DataFrame通过“as[ElementType]”方法转换得到Dataset

1理解sparksql 基本概念

1.1sparksql概念

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。

2掌握dataframedataset基本方式

Datdaframe简介

Spark SQL使用的数据抽象并非是RDD，而是DataFrame。
在Spark 1.3.0版本之前，DataFrame被称为SchemaRDD。
DataFrame使Spark具备处理大规模结构化数据的能力。
在Spark中，DataFrame是一种以RDD为基础的分布式数据集。

DataFrame的结构类似传统数据库的二维表格，可以从很多数据源中创建，如结构化文件、外部数据库、Hive表等数据源。

dataframe创建步骤

打开scala

新建spark目录网站上查看

新建person文件

在/spark目录下查看文件是否上传

进入scala

2．通过文件直接创建DataFrame

Dataframe的查询

一.DSL风格操作

DataFrame提供了一个领域特定语言(DSL)以方便操作结构化数据，下面将针对DSL操作风格，讲解DataFrame

常用操作示例，

1.show():查看DataFrame中的具体内容信息

2.pritSchema0:查看0staFrame的Schema信息

3.select():查看DataFrame中造取部分列的数据，

dataframe数据实操

要求过滤age 大于44等于44的数据

2. 查询年龄最大的前两名人的信息

RDD、DataFrame及Dataset的区别

Dataset数据的表现形式，序号（3）和（4），其中序号（3）是在RDD每行数据的基础之上，添加一个数据类型（value：String）作为Schema元数据信息。而序号（4）每行数据添加People强数据类型，在Dataset[Person]中里存放了3个字段和属性，Dataset每行数据类型可自定义，一旦定义后，就具有错误检查机制。

3掌握rdd转换dataframe的方式及sparksql操作数据源

创建dataset的方式

1、通过SparkSession中的createDataset来创建Dataset

2DataFrame通过“as[ElementType]”方法转换得到Dataset

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
Spark sql结构化数据文件处理

Dataset数据的表现形式，序号（3）和（4），其中序号（3）是在RDD每行数据的基础之上，添加一个数据类型（value：String）作为Schema元数据信息。Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。4理解sparksql的架构。
复制链接

扫一扫

2302_78145993 CSDN认证博客专家 CSDN认证企业博客

码龄1年

4: 原创

191万+: 周排名

16万+: 总排名

2072: 访问

: 等级

86: 积分

42: 粉丝

45: 获赞

3: 评论

55: 收藏

私信

关注

热门文章

最新评论

Spark sql结构化数据文件处理
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Spark sql结构化数据文件处理
CSDN-Ada助手: 恭喜作者发布了新的博客文章“Spark sql结构化数据文件处理”，内容涉及到了数据处理的重要技术，对读者们的学习和工作都会有所帮助。希望作者能继续保持创作的热情和积极性，为大家带来更多有价值的分享。下一步建议可以考虑深入探讨一些实践经验或者案例分析，让读者更易于理解和应用所学知识。期待您更多的精彩内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
rdd创建2
CSDN-Ada助手: 恭喜您第三篇博客“rdd创建2”发布成功！持续创作是一个不断提升自己的过程，您的努力和坚持是非常值得肯定的。希望您在接下来的创作中，继续保持热情和耐心，不断探索新的话题和观点，让读者在您的博客中获得更多启发和收获。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
RDD创建笔记
CSDN-Ada助手: 非常感谢您分享这篇关于RDD创建的博客！您对两种创建RDD的方法进行了详细的介绍，让读者能够更好地理解这一概念。除了parallelize()方法和makeRDD()方法，您还可以进一步探讨RDD的持久化机制，以及如何在集群环境下运行RDD操作等内容。希望您能继续创作，分享更多有价值的知识！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
spark学习记录
CSDN-Ada助手: 恭喜你开始了博客创作，希望你能坚持下去并不断进步。对于你的第一篇博客“spark学习记录”，我觉得可以在以后的博客中加入一些具体的案例分析或者实践经验分享，让读者更加深入地了解你的学习过程和心得体会。期待看到你更多精彩的作品，加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。