一、Spark on Yarn配置
1、在搭建好的Spark上修改spark-env.sh文件:
首先打开spark文件,进入/opt/spark-2.3.3-bin-hadoop2.7/conf下修改spark-env.sh文件
在spark-env.sh添加以下配置:
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
2.修改yarn-site.xml文件
在/home/ubuntu/Desktop/hadoop/etc/yarn-site.xml位置
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
二、Anaconda安装
这里建议去官网下载,去浏览器搜索anaconda就可以了,下载了Downloads
安装一下就可以了
bash Anaconda3-2021.11-Linux-x86_64.sh -b
想安装一个vim也可以,不想的跳过
sudo apt install vim
配置一下~/.bashrc环境
export PATH="~/anaconda3/bin:$PATH"
export ANACONDA_PATH=/home/ubuntu/anaconda3
export PATH=$PATH:$ANACONDA_PATH/bin
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
出现版本就说明对了。
anaconda --version