思维导图:
一、安装JDK
-
下载JDK
- 访问Oracle官网或其他JDK发行版网站(如OpenJDK)下载适合你操作系统的JDK版本。确保下载的是Linux版本,并且是.tar.gz格式的压缩包。
-
解压JDK到指定目录
- 使用
tar
命令解压JDK压缩包到指定目录,例如/usr/lib/jvm
。假设下载的JDK文件名为jdk-11.0.14_linux-x64_bin.tar.gz
,则命令如下:bash
sudo tar -zxvf jdk-11.0.14_linux-x64_bin.tar.gz -C /usr/lib/jvm
- 解压后,可以在
/usr/lib/jvm
目录下看到一个新的文件夹,通常是jdk-11.0.14
(版本号可能不同)。
- 使用
-
设置环境变量
- 编辑
/etc/profile
文件,在文件末尾添加JDK的环境变量:bash
export JAVA_HOME=/usr/lib/jvm/jdk-11.0.14 export PATH=$JAVA_HOME/bin:$PATH - 保存并关闭文件,然后运行
source /etc/profile
命令使环境变量生效。
- 编辑
-
验证JDK安装
- 在终端输入
java -version
和javac -version
命令,如果看到JDK的版本信息,表示JDK安装成功。
- 在终端输入
二、安装Hadoop
-
下载Hadoop
- 访问Apache Hadoop官网(Apache Hadoop官网)下载适合你需求的Hadoop版本。确保下载的是Linux版本的二进制包,通常是
.tar.gz
格式的压缩包。
- 访问Apache Hadoop官网(Apache Hadoop官网)下载适合你需求的Hadoop版本。确保下载的是Linux版本的二进制包,通常是
-
解压Hadoop到指定目录
- 使用
tar
命令解压Hadoop压缩包到指定目录,例如/usr/local/hadoop
。假设下载的Hadoop文件名为hadoop-3.3.1.tar.gz
,则命令如下:bash
sudo tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local
- 解压后,将解压的文件夹重命名为
hadoop
(如果名称已经是hadoop
,则此步骤可省略):bash
sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
- 使用
-
配置Hadoop环境变量
- 同样地,编辑
/etc/profile
文件,在文件末尾添加Hadoop的环境变量:bash
export HADOOP_HOME=/usr/local/hadoop export PATH=$HADOOP_HOME/bin:$PATH export PATH=$HADOOP_HOME/sbin:$PATH - 保存并关闭文件,然后运行
source /etc/profile
命令使环境变量生效。
- 同样地,编辑
-
配置Hadoop
- 进入Hadoop的配置目录
$HADOOP_HOME/etc/hadoop
,编辑以下文件来配置Hadoop:hadoop-env.sh
:设置Java环境变量export JAVA_HOME=/usr/lib/jvm/jdk-11.0.14
(确保与你的JDK安装路径一致)。core-site.xml
:配置Hadoop的文件系统名称和临时数据存储位置等。hdfs-site.xml
:配置HDFS的相关属性,如副本数量等。mapred-site.xml
(可能名为mapred-site.xml.template
,需要重命名):配置MapReduce的相关属性。yarn-site.xml
:配置YARN的相关属性。
- 根据你的具体需求进行配置,可以参考Hadoop的官方文档或相关教程。
- 进入Hadoop的配置目录
-
格式化HDFS
- 在Hadoop安装并配置完成后,首次启动HDFS之前需要格式化HDFS文件系统:
bash
hdfs namenode -format
- 注意:该操作会清空HDFS中的所有数据,仅在首次使用时进行。
- 在Hadoop安装并配置完成后,首次启动HDFS之前需要格式化HDFS文件系统:
-
启动Hadoop
- 使用
start-dfs.sh
和start-yarn.sh
脚本分别启动HDFS和YARN:bash
start-dfs.sh start-yarn.sh - 可以使用
jps
命令来检查 Java 进程,特别是 Hadoop 相关的进程是否已经启动。例如,你会看到NameNode
、DataNode
、ResourceManager
、NodeManager
等进程。
- 使用
-
验证Hadoop安装
- 使用
jps
命令查看 Java 进程,确认 Hadoop 的相关服务是否已启动。 - 访问 Hadoop 的 Web UI,默认情况下,
NameNode
的 Web UI 可以在http://localhost:9870/
访问(注意,根据你的 Hadoop 配置,端口号可能不同),ResourceManager
的 Web UI 可以在http://localhost:8088/
访问。 - 你可以通过这些 Web UI 查看集群的状态、作业信息、节点信息等。
- 使用
-
设置无密码 SSH 访问(可选但推荐)
- Hadoop 集群中的很多操作需要跨节点执行,为了简化操作,建议设置 SSH 免密登录。
- 在 Hadoop 集群的每个节点上生成 SSH 密钥对(如果尚未生成):
ssh-keygen -t rsa
。 - 将每个节点的公钥(默认位于
~/.ssh/id_rsa.pub
)追加到其他节点的~/.ssh/authorized_keys
文件中。 - 测试 SSH 免密登录是否成功。
-
配置 Hadoop 集群(如果需要分布式环境)
- 如果你的 Hadoop 集群不止一个节点,你需要在每个节点上重复上述 JDK 和 Hadoop 的安装步骤。
- 修改 Hadoop 配置文件(如
core-site.xml
、hdfs-site.xml
、mapred-site.xml
、yarn-site.xml
),以反映集群的分布式特性,包括设置 NameNode、DataNode、ResourceManager、NodeManager 的位置等。 - 在每个节点上启动 Hadoop 服务。
-
Hadoop集群的监控和维护
- 使用 Hadoop 自带的 Web UI 监控集群状态。
- 定期查看日志文件,如位于
$HADOOP_HOME/logs
目录下的日志文件,以了解集群的运行情况和潜在问题。 - 使用 Hadoop 自带的管理工具(如 HDFS 的
fsck
工具)进行数据的校验和修复。
-
运行 Hadoop 示例程序
- Hadoop 自带了一些示例程序,如 WordCount 示例,你可以运行这些程序来测试 Hadoop 集群是否工作正常。
- 使用 Hadoop 的命令行工具(如
hadoop jar
)提交作业到集群。