一、数据集
fruits.txt
apple
banana
canary melon
grap
lemon
orange
pineapple
strawberry
二、赋值并合并相同key
例1
fruits = sc.textFile('/Users/huangluyu/data/fruits.txt')
numFruitsByLength = fruits.map(lambda fruit: (len(fruit), 1)).reduceByKey(lambda x, y: x + y)
print(numFruitsByLength.take(10))
对字母长度相同的水果进行一次统计。结果:
[(6, 2), (12, 1), (4, 1), (10, 1), (5, 2), (9, 1)]
内部执行顺序:
apple — 5,1
banana — 6,1
canary melon —12,1
grap —4,1
lemon —5,1( 前面有相同key5,往前合并)
orange —6,1( 前面有相同key6,往前合并)
…
最终显示的顺序,似乎是内部决定。
例2
这里数据集被我改掉了
fruits.txt
apple
apple
apple
banana
canary melon
grap
le