RDD用法与实例（七）：collect和take

水母君98

于 2020-09-27 14:17:57 发布

阅读量1.3k

点赞数

分类专栏：大数据基础文章标签： python spark 大数据

本文链接：https://blog.csdn.net/m0_37754282/article/details/108827065

版权

大数据基础专栏收录该内容

17 篇文章 2 订阅

订阅专栏

有时候collect结果会很奇怪。尽量用take，因为collect不是很能总能很好的收集数据。
如下这个例子中，collect就有了明显的不正确结果。

A = sc.parallelize(range(10))

x = 5
B = A.filter(lambda z: z < x)
# B.cache()
B.unpersist()
print(B.take(10))
print(B.collect())
x = 3
print(B.take(10))
print(B.collect())
# collect() doesn't always re-collect data - bad design!
# Always use take() instead of collect()

[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2]
[0, 1, 2, 3, 4]

水母君98

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD用法与实例（七）：collect和take

有时候collect结果会很奇怪。尽量用take，因为collect不是很能总能很好的收集数据。如下这个例子中，collect就有了明显的不正确结果。A = sc.parallelize(range(10))x = 5B = A.filter(lambda z: z < x)# B.cache()B.unpersist()print(B.take(10))print(B.collect())x = 3print(B.take(10))print(B.collect())# c
复制链接

扫一扫

专栏目录