Spark编程基础（三）

最新推荐文章于 2024-05-13 10:42:57 发布

Apple_杨

最新推荐文章于 2024-05-13 10:42:57 发布

阅读量338

点赞数

文章标签：大数据数据库 java hive linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Python_Apple/article/details/115618332

版权

Spark SQL是Spark的重要组件，源自Shark的改进。它引入DataFrame，提供SQL支持，可处理来自RDD、Hive、HDFS等的数据。DataFrame简化了大规模结构化数据的处理，提供高效率。本文将介绍DataFrame的创建和常用操作。

摘要由CSDN通过智能技术生成

Spark SQL

简介

Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。
Shark即Hive on Spark，Shark的实现继承了大量的Hive代码，因而给优化和维护带来了大量的麻烦，特别是基于MapReduce设计的部分，成为整个项目的瓶颈。因此，在2014年的时候，Shark项目中止，并转向Spark SQL的开发。

Spark SQL架构

Spark SQL增加了SchemaRDD（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以来自Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据。
在这里插入图片描述

DataFrame概述

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。
在这里插入图片描述

DataFrame的创建

如何使用Spa

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。