![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark-sql
晓晓很可爱
这个人很懒什么都没有留下
展开
-
RDD、DataFrame、DataSet这三者的联系和区别
三者的区别和联系:RDD是一个抽象的数据数据集(描述信息)DataFrame, Spark 1.x 是一个抽象的数据数据集,有描述信息(从哪里读取数据,怎么计算) + Schema信息字段的描述信息DataSet在Spark1.6出现的,在Spark2.0将DataFrame和DataSet的的API进行了统一DataSet是一个更正聪明,智能的RDD(有执行计划的RDD),被优化过的RDD,DataSet也有Schema,还有一个EncoderDataFrame是DataSet的一种原创 2020-12-11 16:34:18 · 363 阅读 · 0 评论 -
SQL的三种执行方式
第一种:逐行执行,SQL就是调用select,然后在select中传函数(UFD输入一行返回一行),对于RDD,就是调用底层new MapPartitionsRDD,不论是SQL还是RDD都不需要shuffle第二种:分组执行: select gender, avg(age), count(*) from tb_student group by gender SQL就是调用Select,必须要求Select的字段要么在聚合函数里面SUM(meney),要么在group by...原创 2020-12-11 16:31:43 · 1691 阅读 · 1 评论