Hadoop 安装
在 Ubuntu 上设置 Hadoop v2.9.0
本指南提供了在 Ubuntu 上设置 Hadoop 版本 2.9.0 的分步说明。Hadoop是一个强大的开源框架,用于大规模数据集的分布式存储和处理。按照这些说明,您将能够在 Ubuntu 系统上安装和配置 Hadoop。
设置过程包括以下步骤:
- 安装 Java 开发工具包 (JDK):此步骤可确保您拥有运行 Hadoop 所需的 Java 环境。
- 安装OpenSSH服务器:OpenSSH是Hadoop节点之间的远程访问和通信所必需的。
- 下载和配置 Hadoop:将下载并提取 Hadoop 分发包。将设置必要的环境变量,包括JAVA_HOME和HADOOP_HOME路径。
- 配置 Hadoop XML 文件:将创建并配置核心站点.xml和 hdfs-site.xml 文件,以指定 Hadoop 设置,例如默认文件系统和复制因子。
完成这些步骤后,您将在 Ubuntu 系统上安装功能齐全的 Hadoop。这将允许您使用Hadoop强大的工具和库生态系统执行分布式数据处理和存储任务。
请注意,本指南假设您使用 Ubuntu 作为操作系统和 Hadoop 版本 2.9.0。如果您使用的是不同版本的 Ubuntu 或不同版本的 Hadoop,某些细节可能会有所不同。
安装
1. 创建 Hadoop 用户和组
此命令将一个名为“hadoop”的新组添加到系统中。
sudo addgroup hadoop
此命令创建一个名为“hadoopusr”的新用户,并将其添加到“hadoop”和“sudo”中,并授予其管理权限组。
sudo useradd -m -d /home/hadoopusr -s /bin/bash -G sudo,hadoop hadoopusr
此命令提示更改“hadoopusr”的密码。
sudo passwd hadoopusr
从当前用户注销并使用 hadoop 用户登录。
要切换到具有超级用户权限的“hadoopusr”用户帐户,请使用以下命令:
sudo su - hadoopusr
2. 更新包并安装 Java 开发工具包 (JDK)
- 要确保您的系统是最新的并具有必要的 Java 环境,请执行以下步骤:
更新包信息:
sudo apt-get update
检查已安装的 Java 版本:
java -version
安装默认的 JDK:
sudo apt-get install default-jdk -y
3. 安装 OpenSSH 服务器并设置 SSH 密钥
- 要启用远程访问并设置SSH密钥以进行安全通信,请执行以下步骤:
安装 OpenSSH 服务器:
sudo apt-get install openssh-server -y
生成 RSA 密钥对(按回车键使用默认文件位置):
ssh-keygen -t rsa -P ""
将生成的公钥附加到授权密钥文件:
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
通过连接到本地主机来验证 SSH 连接:
ssh localhost
exit
4. 下载并安装 Hadoop
- 要下载并安装 Hadoop 版本 2.9.0,请执行以下步骤:
将目录更改为“下载”文件夹:
cd /home/hadoopusr/Downloads
下载 Hadoop 分发包:
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz
- 如果您已经下载了 hadoop v2.9.0,则无需执行上述两个步骤
解压缩下载的包:
sudo tar xvzf hadoop-2.9.0.tar.gz
将解压缩的 Hadoop 目录移动到 /usr/local/hadoop 路径:
mv hadoop-2.9.0 hadoop && sudo mv hadoop /usr/local/
通过执行以下步骤,您将下载 Hadoop 分发包,将其解压缩,然后将其移动到相应的安装目录。
5. 设置 Hadoop 安装目录的所有权
要确保用户“hadoopusr”具有Hadoop安装目录的适当所有权和权限,请执行以下命令:
sudo chown -R hadoopusr /usr/local
6. 为 Hadoop 配置环境变量
- 若要为 Hadoop 配置必要的环境变量,请执行以下步骤:
使用 echo 命令将以下行附加到 ~/.bashrc 文件中:
echo 'export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64' >> ~/.bashrc && echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc && echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> ~/.bashrc && echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> ~/.bashrc && echo 'export HADOOP_MAPRED_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export HADOOP_COMMON_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export HADOOP_HDFS_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export YARN_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native' >> ~/.bashrc && echo 'export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"' >> ~/.bashrc
加载更新的 ~/.bashrc 文件以应用更改:
source ~/.bashrc
7. 检查 Java 安装
- 要验证已安装的 Java 版本和位置,请执行以下步骤:
列出目录的内容以查看可用的 Java 安装:
ls -l /usr/lib/jvm
8. 更新 Hadoop 环境配置
要使用 JAVA_HOME 环境变量更新 Hadoop 环境配置文件
sudo echo 'export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
9. 配置 Hadoop XML 配置文件
- 若要为 Hadoop 配置 XML 配置文件,请按照下列步骤操作:
将目录更改为 /usr/local/hadoop/etc/hadoop:
cd /usr/local/hadoop/etc/hadoop
使用以下内容创建或更新核心站点.xml文件:
echo '<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>' > core-site.xml
创建或更新包含以下内容的 hdfs-site.xml
echo '<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/data/datanode</value>
</property>
</configuration>' > hdfs-site.xml
创建或更新包含以下内容的 yarn-site.xml 文件:
echo '<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>' > yarn-site.xml
将 mapred-site.xml.template 文件复制到 mapred-site.xml:
cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
创建或更新包含以下内容的映射站点.xml文件:
echo '<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>' > mapred-site.xml
10. 创建 Hadoop 数据目录
- 若要为 Hadoop 数据存储创建必要的目录,请执行以下步骤:
创建 /usr/local/hadoop_space 目录:
sudo mkdir -p /usr/local/hadoop_space
创建 /usr/local/hadoop_space/hdfs/namenode 目录:
sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode
创建 /usr/local/hadoop_space/hdfs/datanode 目录:
sudo mkdir -p /usr/local/hadoop_space/hdfs/datanode
11. 格式化 Hadoop 名称节点
要格式化 Hadoop 名称节点,请运行以下命令:
hdfs namenode -format
12. 启动 Hadoop 服务
- 要启动 Hadoop 服务并检查其状态,请执行以下步骤:
通过运行以下命令启动 Hadoop 分布式文件系统 (HDFS):
start-dfs.sh
通过执行以下命令启动 YARN 资源管理器和节点管理器:
start-yarn.sh
使用 jps 命令检查正在运行的 Java 进程的状态:
jps
13. 访问 Hadoop Web 界面
要访问 Hadoop Web 界面并监控 Hadoop 集群,请输入以下 URL:
14. 停止 Hadoop 服务
通过运行以下命令停止 Hadoop 分布式文件系统 (HDFS) 服务:
stop-dfs.sh
通过执行以下命令停止 YARN 服务:
stop-yarn.sh