分布式Spark搭建及测试

实验环境

master:192.168.10.131
slave1:192.168.10.129
slave2:192.168.10.130
操作系统ubuntu-16.04.3
jdk1.8.0_221
hadoop-2.7.1
zookeeper-3.4.8
spark-2.4.7

实验步骤

安装spark

  • 下载安装spark
wget https://www.apache.org/dyn/closer.lua/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz
tar -zvxf spark-2.4.7-bin-hadoop2.7.tgz /opt/Data
  • 安装scala
tar -zvxf scala-2.11.12.tar.gz /opt

链接:https://pan.baidu.com/s/1Dt2omR0SfXZyyvwtvimeUA
提取码:owhr

  • 配置系统环境变量
vim /etc/profile
#SPARK
export SPARK_HOME=/opt/Data/spark-2.4.7-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:${SPARK_HOME}/sin:$PATH

export SCALA_HOME=/opt/scala-2.11.12
export PATH=$PATH:$SCALA_HOME/bin

修改spark配置文件

  • 修改spark-env.sh
#复制spark-env.sh.template修改为spark-env.sh
cp spark-env.sh.template spark-env.sh

#添加
export SCALA_HOME=/opt/scala-2.11.12
export HADOOP_INSTALL=/opt/Data/hadoop-2.7.1
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop
PARK_LOCAL_IP=master
#spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tmp目录下
SPARK_LOCAL_DIRS=/opt/Data/spark-2.4.7-bin-hadoop2.7/tmp
export JAVA_HOME=/opt/jdk1.8.0_221
  • 修改slaves
复制slaves.template修改为slaves
cp slaves.template slaves

#添加三台主机的hostname
master
slave1
slave2

启动spark集群

进入sbin目录

./start-all.sh

master

测试

在spark-shell窗口,启动成功为以下图样
在这里插入图片描述

通过使用count()、first()、collect()等操作,来对README.txt进行分;从HDFS中加载README.txt文件

val textFile = sc.textFile("hdfs://ns1/data/input/README.txt")

在这里插入图片描述

Count()操作的含义:RDD 中的 item 数量,对于文本文件来说,就是其总行数。

textFile.count()

在这里插入图片描述

First()的含义:RDD 中的第一个 item,对于文本文件,就是指其第一行内容

textFile.first()

在这里插入图片描述

使用collect(),对文件进行词数统计

val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

wordCount.collect()

在这里插入图片描述
以上操作可通过web端查看
在这里插入图片描述

  • Standalone集群模式
    /opt/Data/spark-2.4.7-bin-hadoop2.7/ 目录下执行
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 ./examples/jars/spark-examples_2.11-2.4.7.jar 100

master:8080
在这里插入图片描述

  • Yarn模式
    /opt/Data/spark-2.4.7-bin-hadoop2.7/ 目录下执行
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster ./examples/jars/spark-examples_2.11-2.4.7.jar 10

http://192.168.10.131:8088/
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值