Spark sql理论简介

最新推荐文章于 2024-07-31 17:28:45 发布

lds_include

最新推荐文章于 2024-07-31 17:28:45 发布

阅读量175

点赞数 1

分类专栏：大数据 Spark 文章标签： Spark sql理论简介大数据的spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lds_include/article/details/89298544

版权

大数据同时被 2 个专栏收录

70 篇文章 5 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

SparkSQL作为Spark处理结构化数据的模块，提供DataFrame编程抽象及分布式SQL查询能力，相较于Hive通过MapReduce执行SQL，SparkSQL转为RDD执行，极大提升了数据处理速度。其特性包括易整合、统一数据访问、兼容Hive及标准数据连接，优势在于内存列存储优化内存使用及字节码生成技术提升性能。

摘要由CSDN通过智能技术生成

Spark sql简介

什么是spark sql

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

了解Spark Sql的必要性

我们知道hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

特性

1.易整合
2.统一的数据访问方式
3.兼容Hive
4.标准的数据连接

优点

1、用到了内存列存储–可以大大优化内存使用效率，减少了内存消耗，避免了gc对大量数据性能开销
2、字节码生成技术（byte-code generation）–可以使用动态字节码生成技术优化新能（也可以理解成是通过sql语句生成scala代码的技术）
3、Scala代码的优化

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。