【PySpark】RDD的map操作小例子

最新推荐文章于 2024-06-02 20:32:01 发布

chongjiapi1753

最新推荐文章于 2024-06-02 20:32:01 发布

阅读量1.9k

点赞数

文章标签： python 大数据

原文链接：https://my.oschina.net/u/3575262/blog/1591431

版权

#################test.py######################
#cat /Users/mparsian/spark-1.6.1-bin-hadoop2.6/test.py
#!/usr/bin/python
import sys
for line in sys.stdin:
   print "hello " + line
################test2.py######################
#cat /Users/mparsian/spark-1.6.1-bin-hadoop2.6/test2.py
#!/usr/bin/python
def fun2(str):
   str2 = str + " zaza"
   return str2
>>> data = ["john","paul","george","ringo"]
>>> data
['john', 'paul', 'george', 'ringo']
>>> rdd = sc.parallelize(data)
>>> rdd.collect()
['john', 'paul', 'george', 'ringo']
>>> test = "/Users/mparsian/spark-1.6.1-bin-hadoop2.6/test.py"
>>> test2 = "/Users/mparsian/spark-1.6.1-bin-hadoop2.6/test2.py"
>>> import test
>>> import test2
>>> pipeRDD = rdd.pipe(test) #注意Pipe
>>> pipeRDD.collect()
[u'hello john', u'', u'hello paul', u'', u'hello george', u'', u'hello ringo', u'']
>>> rdd.collect()
['john', 'paul', 'george', 'ringo']
>>> rdd2 = rdd.map(lambda x : test2.fun2(x)) #这一步很重要，将rdd中每一项都进行fun2()
>>> rdd2.collect()
['john zaza', 'paul zaza', 'george zaza', 'ringo zaza']

转载于:https://my.oschina.net/u/3575262/blog/1591431

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chongjiapi1753

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【PySpark】RDD的map操作小例子

#################test.py###################### #cat /Users/mparsian/spark-1.6.1-bin-hadoop2.6/test.py #!/usr/bin/python import sys for line in sys....
复制链接

扫一扫