Spark SQL

最新推荐文章于 2024-09-10 10:28:51 发布

dengjieyun1598

最新推荐文章于 2024-09-10 10:28:51 发布

阅读量118

收藏

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/Khaleesi-yu/p/7427249.html

版权

1.1. Spark SQL概述

1.1.1. 什么是Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

1.1.2. 为什么要学习Spark SQL

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

1.易整合

2.统一的数据访问方式

3.兼容Hive

4.标准的数据连接

1.1. DataFrames

1.1.1. 什么是DataFrames

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验。

1.1.2. 创建DataFrames

在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口，在spark已经内置了一个sqlContext

hadoop fs -put person.txt /

转载于:https://www.cnblogs.com/Khaleesi-yu/p/7427249.html

dengjieyun1598

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL

1.1. Spark SQL概述1.1.1. 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。1.1.2. 为什么要学习Spark SQL我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值