SparkSql概述

最新推荐文章于 2023-09-04 22:19:26 发布

慧有未来

最新推荐文章于 2023-09-04 22:19:26 发布

阅读量230

点赞数

分类专栏：大数据文章标签： spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35283816/article/details/80245877

版权

大数据专栏收录该内容

26 篇文章 0 订阅

订阅专栏

需要Sql的原因：

1.事实上的标准

2.易学易用

3.受众面大

Shark：

HIve on tez

Hive on mapreduce

Hive on Spark

shark推出：欢迎，基于spark，基于内存的列式存储，与hive能够兼容

缺点：hive ql解析，逻辑执行计划生成，执行计划的优化是依赖于hive的

仅仅是把物理执行计划从mr作业替换为spark作业

hive没有注意线程安全

Shark终止以后，产生了两个分支：

hive on spark ：

Hive社区，源码在HIve中

Spark SQL

Spark Sql社区，源码是在Spark中

支持多种数据源，多种优化技术，扩展性好很多

Sql on hadoop常用框架：

1.HIve

sql语句转化为mapreduce作业

metastore：元数据

Facebook开发

2.impala

cloudera：cdh，cm

sql：自己的守护进程执行，非mr

metastore：元数据

基于内存

3.presto

facebook开发

京东使用

4.drill

可以访问hdfs，rdbms，json，hbase，mangodb，s3,hive

5.Spark Sql

sql

dataframe/dataset api

metastore:

可以访问hdfs，rdbms，json，hbase，mangodb，s3,hive

SparkSql的概述：

1.可以运行，Sql,HiveSql,UDFs,UDAFs 和序列化以及反序列化

2.Connect BI tools to Spark through JDBC

3.支持Python，Java，R，Scala

Spark Sql它不仅有访问或者操作Sql的功能，还提供了其他的非常丰富的操作：外部数据源，优化

Spark SQL is Apache Spark's module for working with structured data

Spark Sql的应用并不局限于Sql

访问Hive，json，parquet等文件的数据

Sql只是Spark SQL的一个功能而已

SparkSql提供了SQl的api，DataFrame和Dataset的API

SparkSql愿景：

Write less Code

Read less data

Let the optimizer do the hard work

Spark Sql架构：

Spark1.x中Spark Sql的入口点：Sql Context：

SparkSQL的愿景：

1.写更少的代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。