Yarn(Yet Another Resource Negotiator)是Apache Hadoop项目的一个子项目,它不仅是一个资源管理器,还是一个作业调度和管理系统。本文将指导你如何在Linux系统上安装和配置Yarn,并展示基本的使用方法。
1. 系统和环境要求
在安装Yarn之前,确保你的系统满足以下条件:
- Linux操作系统(Ubuntu, CentOS, Debian等)
- 已安装Java环境(Java 8以上)
- 至少4GB的内存
- 至少20GB的硬盘空间
2. 安装Hadoop
由于Yarn是Hadoop的一部分,我们首先需要安装Hadoop。以下是在Ubuntu系统上安装Hadoop的步骤:
步骤1:安装Java
sudo apt update
sudo apt install openjdk-8-jdk
java -version
步骤2:下载并解压Hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xzvf hadoop-3.2.2.tar.gz
sudo mv hadoop-3.2.2 /usr/local/hadoop
步骤3:配置环境变量
编辑你的bashrc文件添加Hadoop和Java的环境变量。
echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64' >> ~/.bashrc
echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
3. 配置Yarn
配置core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
配置yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
4. 启动Hadoop和Yarn
start-dfs.sh
start-yarn.sh
5. 验证安装
访问 http://localhost:8088
查看Yarn资源管理器的UI界面,确认Yarn正在运行。
6. 使用示例
以下是提交一个MapReduce作业的示例:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar pi 16 1000
这条命令会启动一个计算π的MapReduce作业,使用16个map任务和1000个样本。