PySpark 之 parallelize

最新推荐文章于 2025-03-17 19:41:51 发布

G_scsd

最新推荐文章于 2025-03-17 19:41:51 发布

阅读量3.4k

点赞数

分类专栏： pyspark 文章标签： pyspark parallelize

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gscsd_T/article/details/103444389

版权

pyspark 专栏收录该内容

16 篇文章

订阅专栏

1. pyspark 版本

2.3.0版本

2. 官网

parallelize(c, numSlices=None)[source]

Distribute a local Python collection to form an RDD. Using xrange is recommended if the input represents a range for performance.

中文翻译：分发一个本地Python集合以形成一个RDD。如果输入表示一个性能范围，则建议使用xrange。

>>> sc.parallelize([0, 2, 3, 4, 6], 5).glom().collect()
[[0], [2], [3], [4], [6]]
>>> sc.parallelize(xrange(0, 6, 2), 5).glom().collect()
[[], [0], [], [2], [4]]

3. 我的代码

from pyspark import SparkContext, SparkConf
conf = SparkConf().setMaster("local").setAppName("Parallelize")
sc = SparkContext(conf=conf)

mylist = list(range(1, 10))
# parallelize()函数将一个List对象转化为了一个RDD对象
lines = sc.parallelize(mylist)
print('lines= ', lines)
#map方法是作用于每一个元素，我们的
rdd = lines.map(lambda x:x+1)
print('rdd = ', rdd)
print('rdd type = ', type(rdd))
# collect()方法的意思是将所有结果都显示出来
print('rdd collect= ',rdd.collect())



>>>lines=  ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195
>>>rdd =  PythonRDD[1] at RDD at PythonRDD.scala:53
>>>rdd type =  <class 'pyspark.rdd.PipelinedRDD'>
>>>rdd collect=  [2, 3, 4, 5, 6, 7, 8, 9, 10]

博客等级

码龄8年

122
原创

346
点赞

1392
收藏

299
粉丝

关注

私信

热门文章

分类专栏

python 67篇
MySQL 1篇
大数据 1篇
pyspark 16篇
Mongo 1篇
ElasticSearch 1篇
docker 2篇
tornado 1篇
python学习 30篇
MySQL数据库 9篇
Django 16篇
Linux 5篇
hadoop 13篇
spark 7篇
Hive 5篇
kafka 2篇
flume 2篇
爬虫 19篇
java 1篇
学习 6篇
程序人生 1篇

最新评论

Python连接MySQL数据库连接池
zzzy7zai: def exe_sql(self,sql,args=None,way=None,ext=None): conn,curs = self.get_conn_curs() try: if ext == 1: curs.execute(sql,args=args) elif ext == 2: curs.executemany(sql,args=args) else: return conn.commit() except Exception as e: conn.rollback() print("error >> exe_sql >> {}".format(e)) return False else: if way == 1: return curs.fetchone() elif way == 2: return curs.fetchall() else: return True finally: self.close_conn_curs(curs) 我是这样写的
PySpark 之 flatMap
菜菜的大数据开发之路: 感谢博主的分享,你真是太帅了(^ ^)／▽▽＼(^ ^)
Python连接MySQL数据库连接池
G_scsd: 应该是，具体的你可以问问ChatGPT，相信能给你更好的答案
Python连接MySQL数据库连接池
魣鮟: 大佬您的意思是不管是不是不同的连接事务都会持续的运行下去是吗
Python连接MySQL数据库连接池
G_scsd: 那有可能是你用的时候刚好连接池断掉了，你加个异常等待试试

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。