本人刚接触spark,最先学的就是map-reduce,跟大家分享一下对map-reduce的理解。
1.Map
首先是map,我认为map就是对数据列的处理:抽取或者添加列,下边是例子:
1.1 提取
rdd1是某用户数据,我们想提取其中的几列用来做分析,先看一下rdd1
的数据
print rdd1.take(1)
打印结果:[(u’id_first’, u’001’, u’300’,u’ios’ )]
欲取第一列和第三列,则:
def map_example(row):
return(row[0],row[2])
rdd_mapped=rdd1.map(map_example)
print rdd_mapped.take(1)
打印结果&#