- 博客(1)
- 收藏
- 关注
转载 RDD编程初级实践
RDD(弹性分布式数据集),它是分区的,可并行计算的数据集。我认为它是一个逻辑概念,这个理解是基于它数据源是分布式的,因为数据可能来源多个服务器,比如Hdfs不同的datanode,当对一个文件进行操作的时候,通过SparkContext创建出这个RDD,我们对这个rdd操作时,表面上是对整个文件对象操作,但实际上这个对象仅仅是引用不同服务器上的文件分隔后的数据,实际的数据操作是通过五大特性来进行的。五大特性:1.分区列表每一分区都有计算函数rdd之间有依赖关系(可选) k-v数据类
2021-06-14 21:40:26 390
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人