【SparkSQL】SparkSQL的基本介绍

最新推荐文章于 2023-11-03 19:41:38 发布

没去过埃及的法老

最新推荐文章于 2023-11-03 19:41:38 发布

阅读量143

点赞数

分类专栏： Sprak 文章标签： spraksql spark DataFrame Dataset 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41369191/article/details/105974524

版权

Sprak 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

目录

Hive和SparkSQL

RDD&DataFrame&DataSet的区别

介绍

Spark SQL是Spark用来处理结构化数据的一个模块。

Spark SQL还提供了多种使用方式，包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点。

官网：http://spark.apache.org/sql/

特点

易整合

可以使用java、scala、python、R等语言的API操作。

统一的数据访问

连接到任何数据源的方式相同。

兼容Hive

支持hiveHQL的语法。

兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)

标准的数据连接

可以使用行业标准的JDBC或ODBC连接

SQL优缺点

SQL的优点

表达非常清晰，难度低，易学习。

SQL的缺点

复杂分析 SQL嵌套较多：试想一下3层嵌套的 SQL维护起来应该挺力不从心的吧

机器学习较难：试想一下如果使用SQL来实现机器学习算法也挺为难的吧

Hive和SparkSQL

Hive是将SQL转为MapReduce

SparkSQL可以理解成是将SQL解析成'RDD'优化再执行

DataFrame

DataFrame是一种以RDD为基础的带有Schema元信息的分布式数据集，类似于传统数据库的二维表格

DataSet

1.DataSet是保存了更多的描述信息，类型信息的分布式数据集。

2.与RDD相比，保存了更多的描述信息，概念上等同于关系型数据库中的二维表。

3.与DataFrame相比，保存了类型信息，是强类型的，提供了编译时类型检查，调用Dataset的方法先会生成逻辑计划，然后被spark的优化器进行优化，最终生成物理计划，然后提交到集群中运行！

DataSet包含了DataFrame的功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集。DataFrame其实就是Dateset[Row]

RDD&DataFrame&DataSet的区别

RDD[Person]：以Person为类型参数，但不了解其内部结构。

DataFrame：提供了详细的结构信息schema列的名称和类型。这样看起来就像一张表了

DataSet[Person]：不光有schema信息，还有类型信息

没去过埃及的法老

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【SparkSQL】SparkSQL的基本介绍

目录介绍特点SQL优缺点Hive和SparkSQLDataFrameDataSetRDD&DataFrame&DataSet的区别介绍 Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式，包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基...
复制链接

扫一扫

专栏目录

没去过埃及的法老 CSDN认证博客专家 CSDN认证企业博客

码龄7年

116: 原创

5万+: 周排名

214万+: 总排名

6万+: 访问

: 等级

1928: 积分

54: 粉丝

204: 获赞

63: 评论

137: 收藏

私信

关注

热门文章

分类专栏

linux 18篇
Yarn 5篇
Scala 5篇
Kylin 2篇
HadoopHA 2篇
HBase 3篇
Redis 7篇
Kafka 5篇
Sprak 24篇
数据仓库 2篇
Kettle 9篇
Impala 3篇
Hive 8篇
Azkaban 3篇
Hue 2篇
zookeeper 6篇
Flume 1篇
MapReduce 1篇
Sqoop 1篇
Hadoop 6篇
BigData 3篇

最新评论

【SparkSQL】SparkSQL与多数据源交互的操作
ctotalk: 挺好
Linux crontab 任务调度
ctotalk: 感谢分享，学以致用。
Hive面试题累积报表
qq_33663705: Select s1.userid,s1.mydate,s1.mycount,s2.sum from stu1 s1 join (SELECT m2.userId as userid,m2.mydate as mydate,SUM(m1.mycount) as sum FROM stu1 m1 JOIN stu1 m2 ON m1.userId = m2.userId WHERE m1.mydate <= m2.mydate GROUP BY m2.userId,m2.mydate) s2 on s1.userid=s2.userid and s1.mydate=s2.mydate;
Hive面试题累积报表
qq_33663705: 最后的MAX(m1.mycount)错了,假如下一个月比上一个月少的话,那这个MAX函数就不成立了.可以把算出的总结进行根据userid nad mydate再次自连接把小计给取出来.Select s1.userid,s1.mydate,s1.mycount,s2.sum from (select * from stu1 order by userid,mydate) s1 join (SELECT m2.userId as userid,m2.mydate as mydate,SUM(m1.mycount) as sum FROM stu1 m1 JOIN stu1 m2 ON m1.userId = m2.userId WHERE m1.mydate <= m2.mydate GROUP BY m2.userId,m2.mydate) s2 on s1.userid=s2.userid and s1.mydate=s2.mydate;
【Kylin】Kylin安装与部署
大数据梦想家: 很详细，点赞支持（｡ò ∀ ó｡）

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。