配置 Linux 上虚拟机的scala 环境

最新推荐文章于 2024-08-05 01:35:30 发布

你在狗叫什么、

最新推荐文章于 2024-08-05 01:35:30 发布

阅读量1.5k

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/awodwde/article/details/108720846

版权

1. 下载安装Scala

将Windows下已经下载好的安装包，传给虚拟机上的节点的/home

查看虚拟机

解压并放到制定目录
tar -xf scala-2.13.3.tgz

2. 配置scala环境变量

vi /etc/profile
   添加
   export SCALA_HOME=/home/scala-2.13.3
   export PATH=$SCALA_HOME/bin:$PATH

3. 下载spark

到www.apache.org找到spark入口并下载
目前最新：spark-3.0.1-bin-hadoop3.2.tgz
下载页：https://archive.apache.org/dist/spark/spark-3.0.1/
文件下载：https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz

4. 使用putty上传至hadoop节点

解压并放至指定目录
tar -xf spark-3.0.1-bin-hadoop3.2.tgz

5. 修改spark环境变量

vi /etc/profile
   添加
   export SPARK_HOME=/home/spark-3.0.1-bin-hadoop3.2/
   export PATH=$SPARK_HOME/bin:$PATH
   配置生效
   source /etc/profile

6. spark配置，在spark根目录的conf目录下，将配置模板文件复制成配置文件

cp spark-env.sh.template spark-env.sh

注：IP地址和路径请自行替换为真实值

9.启动集群

(2)（若需使用YARN模式）
启动Hadoop HDFS和YARN

11.进入Shell

在主节点上输入命令：spark-shell ……
当看见命令提示符：scala>即正确进入spark shell
Spark提交模式：
(1)Local模式(缺省为local[*])
无需Standalone或Yarn集群支撑，可跳过步骤7~10
#spark-shell
#spark-shell --master local[*]
成功启动后提示：
Spark context avaiable as 'sc'(master = local[*], app id = ……)

#spark-shell --master local
成功启动后提示：
Spark context avaiable as 'sc'(master = local, app id = ……)

启动之后

(3)YARN模式(缺省为yarn-client)
无需Standalone集群支撑，可跳过步骤7、8、10
spark-shell --master yarn
spark-shell --master yarn --deploy-mode client
spark-shell --master yarn --deploy-mode cluster (spark-shell不支持cluster模式)
成功启动后提示：
Spark context avaiable as 'sc'(master = yarn, app id = ……)
Spark Job信息Web页面(运行Shell或执行作业时可访问)：http://192.168.137.10:4040
YARN模式中，Spark Job会在YARN中形成Job，Web页面：http://192.168.137.10:8088