SparkSQL-入门

最新推荐文章于 2020-10-11 23:09:32 发布

在下蔡江琪

最新推荐文章于 2020-10-11 23:09:32 发布

阅读量250

点赞数

分类专栏： SparkSQL

本文链接：https://blog.csdn.net/qq_41848129/article/details/100012514

版权

什么是SparkSQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。

SparkSQL特点

1）引入了新的RDD类型SchemaRDD，可以像传统数据库定义表一样来定义SchemaRDD。

2）在应用程序中可以混合使用不同来源的数据，如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。

3）内嵌了查询优化框架，在把SQL解析成逻辑执行计划之后，最后变成RDD的计算。

SparkSQL小案例

1、创建DataFrame对象

DataFrame就相当于数据库的一张表。它是个只读的表，不能在运算过程再往里加元素。RDD.toDF(“列名”)

scala> val rdd=sc.parallelize(List(1,2,3,4,5,6,5,4,3,2,1,3,4,5,6,7,8,5,4,3,2,3,4,56,6))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

在下蔡江琪

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL-入门

什么是SparkSQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。SparkSQL特点1）引入了新的RDD类型SchemaRDD，可以像传统数据库定义表一样来定义SchemaRDD。2...
复制链接

扫一扫