- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 pyspark之RDD
RDD简介 RDD就是一个不可变的分布式对象集合—弹性分布式数据集(Resilient Distributed Dataset)。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含任意类型的对象,包括用户自定义的对象。 RDD常用操作 创建RDD 1.对一个集合进行并行化 x = sc.parallelize([1.0, 0.0, -2.0], 2) 2.读...
2018-08-06 21:42:14 652
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人