- 启动HDFS【进入hadoop安装目录下:sbin/start-dfs.sh】
- 修改Yarn的配置文件【进入hadoop安装目录下:/etc/hadoop/yarn-site.xml】
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master01</value>
</property>
<!-- 配置不检查 -->
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem.check-enabled</name>
<value>false</value>
</property>
- 启动Yarn【进入hadoop安装目录下:sbin/start-yarn.sh,ResourceManager所在服务器下启动Yarn】
- 修改spark-env.sh,添加hadoop和yarn配置文件目录,让Spark能够发现Hadoop配置文件
# 让Spark能够发现Hadoop配置文件
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
- yarn模式下,运行jar包
[lsy@master01 spark-2.1.1-bin-hadoop2.7]$ bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client /opt/module/spark-2.1.1-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.1.jar 100