安装spark-2.4.4-bin-hadoop2.7版本 匹配Hadoop2.7版本
上传,解压
(一)修改环境变量:vi /etc/profile
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin
wq
source /etc/profile
(二)修改配置文件:cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
export JAVA_HOME=/opt/jdk1.8
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
wq 单机模式spark已配置完成,若安装的是分布式模式还要进行如下操作:
(三)添加节点:cd /opt/spark/conf
cp slaves.template.slaves
vi slaves
添加节点:slaves1
slaves2
(四)启动Spark:cd /opt/spark/bin
./spark-shell
(五)以Spark统计单词数量:登录Spark shell
scala>val file=sc.textFile("file:///opt/spark/README.md")
ps: (这个文件也可以是自己创建的文件可以放自己想放的文件内容以后可实现内容的统计)
scala>val rdd=file.flatMap(line =>line.split(" ")).map(word =>(word,1)).reduceByKey(_+_)
scala>rdd.collect()
scala>rdd.foreach(println)
统计数据条数:
scala>file.count()
例如:本机查询的是jiao.txt文件
ok!
细节疏漏,敬请斧正。