比如一个rdd有两列 name age
name有重复的,现在要根据name来去重
m = rdd.map(lambda r:(r[0],r))
r = m.reduceByKey(lambda x,y:x)
首先先生成一个以该列为标准去重的key,该行为value,然后调用reduceByKey就可以啦
比如一个rdd有两列 name age
name有重复的,现在要根据name来去重
m = rdd.map(lambda r:(r[0],r))
r = m.reduceByKey(lambda x,y:x)
首先先生成一个以该列为标准去重的key,该行为value,然后调用reduceByKey就可以啦