Spark的搭建及实现单词统计

安装spark-2.4.4-bin-hadoop2.7版本 匹配Hadoop2.7版本

上传,解压

(一)修改环境变量:vi /etc/profile

export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin

wq

source /etc/profile

(二)修改配置文件:cd /opt/spark/conf

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

export JAVA_HOME=/opt/jdk1.8

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

wq 单机模式spark已配置完成,若安装的是分布式模式还要进行如下操作:

(三)添加节点:cd /opt/spark/conf

cp slaves.template.slaves

vi slaves

添加节点:slaves1

                  slaves2

(四)启动Spark:cd /opt/spark/bin

./spark-shell

(五)以Spark统计单词数量:登录Spark shell

 scala>val file=sc.textFile("file:///opt/spark/README.md")

ps: (这个文件也可以是自己创建的文件可以放自己想放的文件内容以后可实现内容的统计)

scala>val rdd=file.flatMap(line =>line.split(" ")).map(word =>(word,1)).reduceByKey(_+_)

scala>rdd.collect()

scala>rdd.foreach(println)

统计数据条数:

scala>file.count()

例如:本机查询的是jiao.txt文件

 ok!

细节疏漏,敬请斧正。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值