RDD操作
- 创建RDD
- 两种创建方式
- parallelize() 方法
lines = sc.parallelize(["pandas", "i like pandas"])
- 外部读取数据创建RDD
lines = sc.textFile("/path/to/README.md")
- 两种创建方式
- RDD操作
-
转化操作
-
返回新的RDD
-
针对各个元素的转换操作
- 实现map()转化操作
nums = sc.parallelize([1, 2, 3, 4]) squared = nums.map(lambda x: x * x).collect() for num in squared: print "%i " % (num)
- 实现flatMap()转化操作
lines = sc.parallelize(["hello world", "hi"]) words = lines.flatMap(lambda line: line.split(" ")) words.first() # 返回"hello" # platMap实现由一个输入元素生成多个输出元素 lines = sc.parallelize(["hello world", "hi"]) words = lines.map(lam
-
-