SparkSQL简介

最新推荐文章于 2024-08-16 20:58:31 发布

SunnyRivers

最新推荐文章于 2024-08-16 20:58:31 发布

阅读量7k

点赞数 2

分类专栏： Spark 文章标签： SparkSql简介 SparkSQL 什么是SparkSql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/android_xue/article/details/80156682

版权

Spark 专栏收录该内容

68 篇文章 16 订阅

订阅专栏

SparkSQL简介

1. 概念

Spark SQL是Apache Spark用于处理结构化数据的模块。

2. 特征：

（1）集成

将SQL查询与Spark程序无缝对接。

Spark SQL允许您使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。可用于Java，Scala，Python和R.

（2）统一的数据访问

以同样的方式连接到任何数据源。

DataFrames和SQL提供了访问各种数据源的常用方式，包括Hive，Avro，Parquet，ORC，JSON和JDBC。您甚至可以通过这些来源加入数据。

（3）Hive集成

在现有仓库上运行SQL或HiveQL查询。

Spark SQL支持HiveQL语法以及Hive SerDes和UDF，允许您访问现有的Hive仓库。

（4）标准连接

通过JDBC或ODBC连接。

服务器模式为商业智能工具提供行业标准的JDBC和ODBC连接。

3. 为什么会引入SparkSQL？

在Hadoop发展过程中，为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应用而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是，MapReduce在计算过程中大量的中间磁盘落地过程消耗了大量的磁盘I/O，降低了运行效率。

为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生，其中表现突出的有一个叫做Shark的工具。Shark运行在Spark引擎上，从而使得SQL的查询速度得到了10-100倍的提升。

但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等），制约了Spark的One Stack rule them all的既定方针，制约了Spark各个组件的相互集成，所以才有了SparkSQL。

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SunnyRivers 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。