Spark on Yarn配置和Anaconda的安装

最新推荐文章于 2024-08-14 16:26:58 发布

刘新源870

最新推荐文章于 2024-08-14 16:26:58 发布

阅读量1k

点赞数

分类专栏： VMware虚拟机文章标签： spark 大数据 ubuntu

本文链接：https://blog.csdn.net/qq_56437391/article/details/123896742

版权

VMware虚拟机专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文介绍了如何配置Spark在Yarn上的运行环境，包括在spark-env.sh中设置HADOOP_CONF_DIR和YARN_CONF_DIR，并关闭内存检查选项。此外，还详细讲解了Anaconda的安装过程，以及如何通过修改.bashrc文件设置Anaconda的环境变量，确保PySpark使用Anaconda的Python和IPython。

摘要由CSDN通过智能技术生成

一、Spark on Yarn配置

1、在搭建好的Spark上修改spark-env.sh文件：

首先打开spark文件,进入/opt/spark-2.3.3-bin-hadoop2.7/conf下修改spark-env.sh文件

在spark-env.sh添加以下配置：

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

2.修改yarn-site.xml文件

在/home/ubuntu/Desktop/hadoop/etc/yarn-site.xml位置

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
 <property>
     <name>yarn.nodemanager.pmem-check-enabled</name>
     <value>false</value>
 </property>

 <!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
 <property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
 </property>

二、Anaconda安装

这里建议去官网下载，去浏览器搜索anaconda就可以了，下载了Downloads

安装一下就可以了

bash Anaconda3-2021.11-Linux-x86_64.sh -b

想安装一个vim也可以，不想的跳过

sudo apt install vim

配置一下~/.bashrc环境

export PATH="~/anaconda3/bin:$PATH"

export ANACONDA_PATH=/home/ubuntu/anaconda3
export PATH=$PATH:$ANACONDA_PATH/bin
 
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python