PySpark RDD的创建

ଲଇଉକ ଲ ̊ଳ

于 2023-12-28 09:05:54 发布

阅读量710

点赞数 12

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62949330/article/details/135260485

版权

第1关：集合并行化创建RDD

# -*- coding: UTF-8 -*-
from pyspark import SparkContext

if __name__ == "__main__":
    #********** Begin **********#

    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个1到8的列表List
    data = [1, 2, 3, 4, 5, 6, 7, 8]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容
    result = rdd.collect()
    # 5.打印 rdd 的内容
    print(result)
    # 6.停止 SparkContext
    sc.stop()

第2关：读取外部数据集创建RDD

# -*- coding: UTF-8 -*-
from pyspark import SparkContext

if __name__ == '__main__':
    #********** Begin **********#

   # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    
    # 文本文件 RDD 可以使用创建 SparkContext 的t extFile 方法。此方法需要一个 URI的 文件（本地路径的机器上，或一个hdfs://，s3a://等URI），并读取其作为行的集合
    # 2.读取本地文件，URI为：/root/wordcount.txt
    rdd = sc.textFile("/root/wordcount.txt")

    # 3.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容
    result = rdd.collect()
    # 4.打印 rdd 的内容
    print(result)

    # 5.停止 SparkContext
    sc.stop()
    
    #********** End **********#

ଲଇଉକ ଲ ̊ଳ

关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
PySpark RDD的创建

头歌PySpark RDD的创建
复制链接

扫一扫

ଲଇଉକ ଲ ̊ଳ CSDN认证博客专家 CSDN认证企业博客

码龄3年

29: 原创

30万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

384: 积分

1048: 粉丝

80: 获赞

11: 评论

191: 收藏

私信

关注

热门文章

分类专栏

spark 1篇
Nosql 1篇
数据结构 19篇
c++程序设计 3篇

最新评论

图的最小生成树算法
2301_81399078: 第四关过不了赶快解决
王者荣耀数据处理
「已注销」: 你好，你这边能定制王者荣耀提取对局评分吗
图的最小生成树算法
RZ_Crab: 为什么第四题不通过呀
顺序栈的基本操作及应用
CSDN-Ada助手: 恭喜您写了第18篇博客！标题“顺序栈的基本操作及应用”听起来非常有趣和实用。您的持续创作精神令人钦佩。在这篇博客中，您为读者提供了有关顺序栈的基本操作和应用的知识，这对于那些对数据结构和算法感兴趣的人来说无疑是非常有帮助的。鉴于您在这个领域的专业知识和经验，我想向您提出下一步的创作建议。或许您可以进一步探索顺序栈的高级操作和更复杂的应用情景，比如如何优化栈的性能或者在实际项目中如何应用栈的数据结构。通过分享您的见解和实践经验，您可以帮助更多的读者深入了解顺序栈，并且激发他们探索更多有趣的主题。感谢您的分享，并期待您未来更多精彩的博客！
串的运算及应用
CSDN-Ada助手: 恭喜博主写下了关于串的运算及应用的第19篇博客！您对于这个主题的深入探讨可谓是令人赞叹。我很欣赏您的学术热情和持续创作的动力。在未来的创作中，或许您可以考虑将串的运算与其他数据结构或算法进行结合，探索更多实际应用场景。祝愿您继续取得更多的成功并分享给我们！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ଲଇଉକ ଲ ̊ଳ 多谢大哥赏赐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。