PySpark 之 parallelize

1. pyspark 版本

       2.3.0版本

 

2. 官网

     parallelize(cnumSlices=None)[source]

         Distribute a local Python collection to form an RDD. Using xrange is recommended if the input represents a range for      performance.

       中文翻译: 分发一个本地Python集合以形成一个RDD。如果输入表示一个性能范围,则建议使用xrange。

>>> sc.parallelize([0, 2, 3, 4, 6], 5).glom().collect()
[[0], [2], [3], [4], [6]]
>>> sc.parallelize(xrange(0, 6, 2), 5).glom().collect()
[[], [0], [], [2], [4]]

 

3.   我的代码

from pyspark import SparkContext, SparkConf
conf = SparkConf().setMaster("local").setAppName("Parallelize")
sc = SparkContext(conf=conf)

mylist = list(range(1, 10))
# parallelize()函数将一个List对象转化为了一个RDD对象
lines = sc.parallelize(mylist)
print('lines= ', lines)
#map方法是作用于每一个元素,我们的
rdd = lines.map(lambda x:x+1)
print('rdd = ', rdd)
print('rdd type = ', type(rdd))
# collect()方法的意思是将所有结果都显示出来
print('rdd collect= ',rdd.collect())



>>>lines=  ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195
>>>rdd =  PythonRDD[1] at RDD at PythonRDD.scala:53
>>>rdd type =  <class 'pyspark.rdd.PipelinedRDD'>
>>>rdd collect=  [2, 3, 4, 5, 6, 7, 8, 9, 10]

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值