Linux Centos Spark安装配置

本文介绍了如何在Spark3.5.0版本中从本地运行模式(Local模式)切换到HadoopYARN模式,并通过WordCount示例展示了如何在SparkShell中处理本地文件和HDFS中的数据。同时,涉及到了Hadoop3.3.5的安装和HDFS的使用。
摘要由CSDN通过智能技术生成

Spark版本:3.5.0,下载:Index of /dist/spark/spark-3.5.0

运行模式:Local本地运行模式

Yarn运行模式:Hadoop Yarn运行模式 WordCount例子(JAVA)-CSDN博客

1 解压,环境变量

# tar -xzvf spark-3.5.0-bin-hadoop3-scala2.13.tgz

# vi .bashrc
export SPARK_HOME=/home/hadoop/spark-3.5.0-bin-hadoop3-scala2.13
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

# source .bashrc

2 测试

1) spark-submit提交任务

--master local是本地运行模式

# spark-submit --class org.apache.spark.examples.SparkPi --master local[2] /home/hadoop/spark-3.5.0-bin-hadoop3-scala2.13/examples/jars/spark-examples_2.13-3.5.0.jar 10    # spark-examples_2.13-3.5.0.jar是spark自带的example包

----master yarn

# 环境变量
# vi .bashrc
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

# source .bashrc
# spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 1g --executor-memory 1g --executor-cores 2 --queue default /home/test/spark-3.5.0-bin-hadoop3-scala2.13/examples/jars/spark-examples_2.13-3.5.0.jar 10

2) spark-shell,单词计数

 本地文件

# cat words.txt
hello world
hello hi
hi tom


# spar-shell
scala>sc.textFile("/home/hadoop/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).collect

HDFS文件

Hadoop版本:3.3.5,安装:腾讯云服务器Linux centos hadoop安装配置-CSDN博客

# start-dfs.sh    # 安装了Hadoop,启动HDFS
# hdfs dfs -put /home/hadoop/words.txt /    # 上传文件到HDFS的根目录

# spark-shell
sc.textFile("hdfs://localhost:9000/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).collect

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值