大数据学习笔记：SparkSQL入门

howard2005

已于 2022-06-25 00:19:14 修改

阅读量1.4k

点赞数 2

分类专栏： Spark基础学习笔记文章标签： SparkSQL DF

于 2021-12-10 22:09:16 首次发布

本文链接：https://blog.csdn.net/howard2005/article/details/121865632

版权

Spark基础学习笔记专栏收录该内容

52 篇文章 16 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了SparkSQL的起源、特点和执行流程，重点讲解如何创建DataFrame，包括从RDD、txt、json、parquet文件以及通过jdbc转换。还深入探讨了DataFrame的使用方法，如select、where、orderBy、groupBy、join等操作，以及如何通过SQL进行查询。此外，文章还涵盖了通过Java代码操作SparkSQL的步骤。

摘要由CSDN通过智能技术生成

一、SparkSQL概述

（一）SparkSQL简史

SparkSql的前身叫做Shark。Shark是在Hive的基础上，替换了其中的计算引擎，从MR换成Spark从而提升了效率。但是之后，为了减少对Hive的依赖，Spark的设计者，放弃了Shark重新开发了SparkSQL。由于底层的Spark比MR的效率要高很多，所以SparkSQL的效率也要比Hive高很多。现在越来越流行起来了。
在这里插入图片描述
但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack rule them all的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等，重新开发了SparkSQL代码；由于摆