- 博客(2)
- 收藏
- 关注
原创 SparkSQL与RDD
1.RDD是Spark的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布3.在集群中的不同节点上(分区即partition),从而让RDD中的数据可以被并行操作。(分布式的特性)4.RDD通常通过Hadoop上的文件,即HDFS文件,来进行创建;有时也可以通过Spark应用程序中的集合来创建。
2024-05-08 21:57:25
645
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人