RDD简介
RDD就是一个不可变的分布式对象集合—弹性分布式数据集(Resilient Distributed Dataset)。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含任意类型的对象,包括用户自定义的对象。
RDD常用操作
创建RDD
1.对一个集合进行并行化
x = sc.parallelize([1.0, 0.0, -2.0], 2)
2.读取外部数据集
textFile = sc.textFile(path)
转化操作(转化操作会形成新的RDD)
针对各个元素的转化操作
两个最常用的转化操作是map()和filter()。转化操作map()接收一个函数,将这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中对应元素的值。转化操作filter()接收一个函数,并将RDD中满足该函数的元素放入新的RDD中返回。
1.map()
df1=df.select('cpurate','memrate','ser','plr','temp','alldevicenumber','opticalinpower','opticaloutpower','dialingnumber')
df1.show(5)
+-------+-------+---+---+----+---------------+---