Spark的搭建及实现单词统计

最新推荐文章于 2024-04-23 22:42:49 发布

Z宏伟蓝图Z

最新推荐文章于 2024-04-23 22:42:49 发布

阅读量1.6k

点赞数 1

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53827620/article/details/124392008

版权

安装spark-2.4.4-bin-hadoop2.7版本匹配Hadoop2.7版本

上传，解压

（一）修改环境变量：vi /etc/profile

export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin

wq

source /etc/profile

（二）修改配置文件：cd /opt/spark/conf

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

export JAVA_HOME=/opt/jdk1.8

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

wq 单机模式spark已配置完成，若安装的是分布式模式还要进行如下操作：

（三）添加节点：cd /opt/spark/conf

cp slaves.template.slaves

vi slaves

添加节点：slaves1

slaves2

（四）启动Spark：cd /opt/spark/bin

./spark-shell

（五）以Spark统计单词数量：登录Spark shell

scala>val file=sc.textFile("file:///opt/spark/README.md")

ps: （这个文件也可以是自己创建的文件可以放自己想放的文件内容以后可实现内容的统计）

scala>val rdd=file.flatMap(line =>line.split(" ")).map(word =>(word,1)).reduceByKey(_+_)

scala>rdd.collect()

scala>rdd.foreach(println)

统计数据条数：

scala>file.count()

例如：本机查询的是jiao.txt文件

ok！

细节疏漏，敬请斧正。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark的搭建及实现单词统计

安装spark-2.4.4-bin-hadoop2.7版本匹配Hadoop2.7版本上传，解压（一）修改环境变量：vi /etc/profileexport SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/binwqsource /etc/profile（二）修改配置文件：cd /opt/spark/confcp spark-env.sh.template spark-env.shvi spark-env.shex
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。