Ubuntu安装2.9.0版本Hadoop

最新推荐文章于 2024-07-13 09:47:47 发布

装一袋星辰大海

最新推荐文章于 2024-07-13 09:47:47 发布

阅读量228

点赞数

文章标签： hadoop ubuntu 大数据

本文链接：https://blog.csdn.net/qq_53846367/article/details/131164326

版权

在这里插入图片描述

Hadoop 安装

在 Ubuntu 上设置 Hadoop v2.9.0

本指南提供了在 Ubuntu 上设置 Hadoop 版本 2.9.0 的分步说明。Hadoop是一个强大的开源框架，用于大规模数据集的分布式存储和处理。按照这些说明，您将能够在 Ubuntu 系统上安装和配置 Hadoop。

设置过程包括以下步骤：

安装 Java 开发工具包（JDK）：此步骤可确保您拥有运行 Hadoop 所需的 Java 环境。
安装OpenSSH服务器：OpenSSH是Hadoop节点之间的远程访问和通信所必需的。
下载和配置 Hadoop：将下载并提取 Hadoop 分发包。将设置必要的环境变量，包括JAVA_HOME和HADOOP_HOME路径。
配置 Hadoop XML 文件：将创建并配置核心站点.xml和 hdfs-site.xml 文件，以指定 Hadoop 设置，例如默认文件系统和复制因子。

完成这些步骤后，您将在 Ubuntu 系统上安装功能齐全的 Hadoop。这将允许您使用Hadoop强大的工具和库生态系统执行分布式数据处理和存储任务。

请注意，本指南假设您使用 Ubuntu 作为操作系统和 Hadoop 版本 2.9.0。如果您使用的是不同版本的 Ubuntu 或不同版本的 Hadoop，某些细节可能会有所不同。

安装

1. 创建 Hadoop 用户和组

此命令将一个名为“hadoop”的新组添加到系统中。

sudo addgroup hadoop

此命令创建一个名为“hadoopusr”的新用户，并将其添加到“hadoop”和“sudo”中，并授予其管理权限组。

sudo useradd -m -d /home/hadoopusr -s /bin/bash -G sudo,hadoop hadoopusr

此命令提示更改“hadoopusr”的密码。

sudo passwd hadoopusr

从当前用户注销并使用 hadoop 用户登录。

要切换到具有超级用户权限的“hadoopusr”用户帐户，请使用以下命令：

sudo su - hadoopusr

2. 更新包并安装 Java 开发工具包（JDK）

要确保您的系统是最新的并具有必要的 Java 环境，请执行以下步骤：

更新包信息：

sudo apt-get update

检查已安装的 Java 版本：

java -version

安装默认的 JDK:

sudo apt-get install default-jdk -y

3. 安装 OpenSSH 服务器并设置 SSH 密钥

要启用远程访问并设置SSH密钥以进行安全通信，请执行以下步骤：

安装 OpenSSH 服务器：

sudo apt-get install openssh-server -y

生成 RSA 密钥对（按回车键使用默认文件位置）：

ssh-keygen -t rsa -P ""

将生成的公钥附加到授权密钥文件：

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

通过连接到本地主机来验证 SSH 连接：

ssh localhost

exit

4. 下载并安装 Hadoop

要下载并安装 Hadoop 版本 2.9.0，请执行以下步骤：

将目录更改为“下载”文件夹：

cd /home/hadoopusr/Downloads

下载 Hadoop 分发包：

wget https://archive.apache.org/dist/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz

如果您已经下载了 hadoop v2.9.0，则无需执行上述两个步骤

解压缩下载的包：

sudo tar xvzf hadoop-2.9.0.tar.gz

将解压缩的 Hadoop 目录移动到 /usr/local/hadoop 路径：

mv hadoop-2.9.0 hadoop && sudo mv hadoop /usr/local/

通过执行以下步骤，您将下载 Hadoop 分发包，将其解压缩，然后将其移动到相应的安装目录。

5. 设置 Hadoop 安装目录的所有权

要确保用户“hadoopusr”具有Hadoop安装目录的适当所有权和权限，请执行以下命令：

sudo chown -R hadoopusr /usr/local

6. 为 Hadoop 配置环境变量

若要为 Hadoop 配置必要的环境变量，请执行以下步骤：

使用 echo 命令将以下行附加到 ~/.bashrc 文件中：

echo 'export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64' >> ~/.bashrc && echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc && echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> ~/.bashrc && echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> ~/.bashrc && echo 'export HADOOP_MAPRED_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export HADOOP_COMMON_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export HADOOP_HDFS_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export YARN_HOME=$HADOOP_HOME' >> ~/.bashrc && echo 'export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native' >> ~/.bashrc && echo 'export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"' >> ~/.bashrc

加载更新的 ~/.bashrc 文件以应用更改：

source ~/.bashrc

7. 检查 Java 安装

要验证已安装的 Java 版本和位置，请执行以下步骤：

列出目录的内容以查看可用的 Java 安装：

ls -l /usr/lib/jvm

8. 更新 Hadoop 环境配置

要使用 JAVA_HOME 环境变量更新 Hadoop 环境配置文件

sudo echo 'export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

9. 配置 Hadoop XML 配置文件

若要为 Hadoop 配置 XML 配置文件，请按照下列步骤操作：

将目录更改为 /usr/local/hadoop/etc/hadoop：

cd /usr/local/hadoop/etc/hadoop

使用以下内容创建或更新核心站点.xml文件：

echo '<configuration>
<property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:9000</value>
</property>
</configuration>' > core-site.xml

创建或更新包含以下内容的 hdfs-site.xml

echo '<configuration>
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/local/hadoop/data/namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/local/hadoop/data/datanode</value>
</property>
</configuration>' > hdfs-site.xml

创建或更新包含以下内容的 yarn-site.xml 文件：

echo '<configuration>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>' > yarn-site.xml

将 mapred-site.xml.template 文件复制到 mapred-site.xml：

cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

创建或更新包含以下内容的映射站点.xml文件：

echo '<configuration>
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
</configuration>' > mapred-site.xml

10. 创建 Hadoop 数据目录

若要为 Hadoop 数据存储创建必要的目录，请执行以下步骤：

创建 /usr/local/hadoop_space 目录：

sudo mkdir -p /usr/local/hadoop_space

创建 /usr/local/hadoop_space/hdfs/namenode 目录:

sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode

创建 /usr/local/hadoop_space/hdfs/datanode 目录:

sudo mkdir -p /usr/local/hadoop_space/hdfs/datanode

11. 格式化 Hadoop 名称节点

要格式化 Hadoop 名称节点，请运行以下命令：

hdfs namenode -format

12. 启动 Hadoop 服务

要启动 Hadoop 服务并检查其状态，请执行以下步骤：

通过运行以下命令启动 Hadoop 分布式文件系统（HDFS）：

start-dfs.sh

通过执行以下命令启动 YARN 资源管理器和节点管理器：

start-yarn.sh

使用 jps 命令检查正在运行的 Java 进程的状态：

jps

13. 访问 Hadoop Web 界面

要访问 Hadoop Web 界面并监控 Hadoop 集群，请输入以下 URL：

http://localhost:50070

14. 停止 Hadoop 服务

通过运行以下命令停止 Hadoop 分布式文件系统（HDFS）服务：

stop-dfs.sh

通过执行以下命令停止 YARN 服务：

stop-yarn.sh