Spark安装部署Local

本文档详细介绍了如何在已搭建好的Hadoop集群基础上,配置和运行Spark的Local模式。内容包括Spark的架构角色、Python环境的Anaconda3安装及虚拟环境创建,以及Spark的Local模式部署步骤,如环境变量设置和测试运行。通过这些步骤,读者可以理解并实践Spark在单机环境下的运行方式。
摘要由CSDN通过智能技术生成

生命无罪,健康万岁,我是laity。
以下操作都是基于你已经把hadoop集群搭建好了的情况下

Spark的运行模式
  • 上面的部署安装属于(本地模式)Local部署
    在这里插入图片描述
Spark的架构角色
  • 个人认为很重要 - 方便理解Spark和YARN
    在这里插入图片描述
Python环境部署
  • 我们用的python环境是Anaconda3
# 1.将`Anaconda3-2021.05-Linux-x86_64.sh`文件到Linux服务器上
# 2.安装到 /opt/laityInstall 下   sh ./Anaconda3-2021.05-Linux-x86_64.sh 执行安装
# 3.配置国内镜像  vim ~/.condarc
channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  
# 4.创建虚拟环境 pyspark, 基于Python 3.8
conda create -n pyspark python=3.8

# 切换到虚拟环境内
conda activate pyspark
SparkLocal部署
Local 下的角色分布:
资源管理:
Master:Local进程本身
Worker:Local进程本身
任务执行:
Driver:Local进程本身
Executor:不存在,没有独立的Executor角色, 由Local进程(也就是Driver)内的线程提供计算能力
PS: Driver也算一种特殊的Executor, 只不过多数时候, 我们将Executor当做纯Worker对待, 这样和Driver好区分(一类是管理 一类是工人)
注意: Local模式只能运行一个Spark程序, 如果执行多个Spark程序, 那就是由多个相互独立的Local进程在执行
  • Local运行模式
# 1.将spark-3.2.0-bin-hadoop3.2.tgz 上传到Linux服务器上
# 2.解压到 /opt/laityIstall 下
# 3.由于spark目录名称很长, 给其一个软链接:
ln -s /opt/laityIstall/spark-3.2.0-bin-hadoop3.2 /opt/laityInstall/spark
# 4.Spark运行所需要的环境变量  vim /etc/profile.d/my_env.sh
# vim /etc/profile.d/my_env.sh
# java jdk
export JAVA_HOME=/opt/laityInstall/jdk
export PATH=$PATH:$JAVA_HOME/bin

#HADOOP_HOME
export HADOOP_HOME=/opt/laityInstall/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# Spark 
export SPARK_HOME=/opt/laityInstall/spark

# Python Spark想运行Python程序, 那么去哪里找python执行器 
export PYSPARK_PYTHON=/opt/laityInstall/anaconda3/envs/pyspark/bin/python
# Hadoop 配置文件地址
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# 5.PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: `/root/.bashrc`中
export JAVA_HOME=/opt/laityInstall/jdk
export PYSPARK_PYTHON=/opt/laityInstall/anaconda3/envs/pyspark/bin/python
测试运行
# cd /opt/laityIstall/spark/bin/
# ./pyspark   -- 这个是交互式的python运行环境的  可以运行Python代码去进行Spark计算  
# ./spark-shell  -- sgala运行环境的
# ./Rspark    -- R语言的运行环境的
# 访问以上交互式模式可以通过访问 Itlaity101:4040 访问网页端
# ./spark-submit  -- 指定文件运行的;需要指定参数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

itLaity

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值