![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
陆久
这个作者很懒,什么都没留下…
展开
-
Spark-RDD介绍
目录Spark-RDD介绍1.RDD定义2.RDD属性3.RDD特点3.1.弹性3.2.分区3.3.只读3.4.依赖3.5.缓存3.6.CheckPointSpark-RDD介绍1.RDD定义RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。2.RDD属性一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD原创 2020-07-05 13:58:33 · 92 阅读 · 0 评论 -
Spark SQL-DataFrame,DataSet与RDD
Spark SQL 目录DataFrameDataSetRDDDataFrame,DataSet与RDD之间转换DataFrame,DataSet与RDD之间的关系DataFrame,DataSet与RDD之间共性与区别1.Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式...原创 2020-03-04 10:57:53 · 338 阅读 · 0 评论