Spark，在shell中运行RDD程序

今天我又学废了

于 2025-05-09 17:35:10 发布

阅读量312

点赞数 4

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2402_87076376/article/details/147833164

版权

在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词

启动hdfs集群

[root@hadoop100 ~]# myhadoop start

[root@hadoop100 ~]# cd /opt/module/spark-yarn/bin

[root@hadoop100 ~]# ./spark-shell

写个1+1测试一下

按住ctrl+D退出

进入环境：spark-shell --master yarn

逐个写代码：

    // 读取文件，得到RDD
    val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")
    // 将单词进行切割，得到一个存储全部单词的RDD
    val rdd2= rdd1.flatMap(line => line.split(" "))
    // 将单词转换为元组对象，key是单词，value是数字1
    val rdd3= rdd2.map(word => (word, 1))
    // 将元组的value按照key来分组，对所有的value执行聚合操作(相加)
    val rdd4= rdd3.reduceByKey((num1, num2) => num1 + num2)
    // 收集RDD的数据并打印输出结果
    rdd4.collect().foreach(println)
    // 将结果储存在out111中
    rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")

在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分

RDD的执行过程

今天我又学废了

博客等级

码龄1年

74
原创

684
点赞

336
收藏

272
粉丝

关注

私信

热门文章

最新评论

Python学习记录
付子果: 好文好闻　　　／＞　　フ　　　　　| ❤️ ❤️ 　　　　／` ミ＿꒳ノ　　　 /　　　　 | 　　　 /　ヽ　　ﾉ　　 │　　|　|　| 　／￣|　　 |　|　| 　| (￣ヽ＿_ヽ_)__) 　＼二つ这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。文章结构严谨有条,层次分明,读起来一点也不费劲。更难能可贵的是,作者不仅深入浅出地阐述了这一领域的核心概念,还贯穿了大量的实例和案例分析,使得抽象的理论和现实生活紧密相连,让人受益匪浅。
scala学习记录
今天我又学废了: 最下面是二进制和十进制直接的转换

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。