SparkSQL概述

最新推荐文章于 2024-05-10 20:03:52 发布

BUPT-WT

最新推荐文章于 2024-05-10 20:03:52 发布

阅读量145

点赞数

分类专栏： Spark 文章标签： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/84190235

版权

Spark 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

1、SparkSQL前世今生

为什么需要SQL

1）事实上的标准：统计分析的标准

2）易学易用

3）受众面大

例子：

对文本文件进行统计分析：

id,name,age,city

1001,zhangsan,45,beijing

....

table定义：Person

column定义：

id:int

name:string

age:int

city:string

hive:load data

sql:query

Shark:

Hive：类似sql的Hive QL语言，sql==>mapreduce

缺点：mapreduce效率比较低下

改进：hive on tez 、mapreduce 、spark上面

Shark推出：很受欢迎，将原来hive数据跑在spark，基于spark、基于内存的列式存储、与hive能够兼容

缺点：hive ql的解析、逻辑执行计划的生成是依赖与hive的，Shark仅仅是把物理执行计划从mr作业替换成spark作业

Shark在14年左右被终止之后，产生两个分支：

1）hive on spark

hive社区，源码在hive 中

2）spark SQL

Spark 社区，源码在Spark中

支持多种数据源、多种优化技术、扩展性好很多

2、SQL on Hadoop 常用框架

1）hive:将sql转换成mapreduce，megastore：元数据，sql:database、table、view

2) impala:cloudera:cdh、cm sql:守护自己的进程而不是mr的

3）presto:facebook、京东使用 sql

4) drill sql 可以访问：hdfs 、rdbms、json、hbase、mangodb、hive

5) Spark SQL sql dataframe/datasets api metastore

可以访问：hdfs 、rdbms、json、hbase、mangodb、hive ==>外部数据源

3、Spark SQL概述

1）Spark中核心组件，除sparkcore 之外最受关注的模块，spark1.0版本发布的（Alpha毕业之后比较稳定）

2）运行sql hive

3）通过jdbc通过spark快速处理数据

4）支持多语言

5）SparkSQL 不仅仅有访问和操作SQL功能，还提供其他丰富的操作：外部数据源、优化

4、Spark SQL 愿景

写更少的代码、读更少的数据、让底层进行优化

5、Spark SQL架构

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

116万+: 总排名

62万+: 访问

: 等级

1万+: 积分

366: 粉丝

260: 获赞

100: 评论

1140: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。