RDD基础
RDD是什么?
RDD是不可变的分布式对象集合,每个RDD被分为多个分区,分区运行在集群的不同节点上
创建RDD?
两种方式:1 读取外部数据集 2 在驱动器程序里并行化对象集合
val lines = sc.textFile("/usr/local/spark/README.md")
val lines = sc.parallelize(List("pandas", "i like pandas"))
RDD支持操作
RDD基础
RDD是什么?
RDD是不可变的分布式对象集合,每个RDD被分为多个分区,分区运行在集群的不同节点上
创建RDD?
两种方式:1 读取外部数据集 2 在驱动器程序里并行化对象集合
val lines = sc.textFile("/usr/local/spark/README.md")
val lines = sc.parallelize(List("pandas", "i like pandas"))
RDD支持操作