一、Ubuntu 虚拟机全新安装
1. 准备工作
- 下载镜像
Ubuntu 22.04 LTS ISO(推荐LTS版本) - 虚拟机配置建议
- VMware/VirtualBox:至少2核CPU、4GB内存、50GB磁盘(Hadoop需要资源)
- 网络模式:NAT(默认)或桥接(如需局域网访问)
2. 安装步骤
-
创建新虚拟机
- 选择ISO启动 → 语言选 English(避免中文路径问题)→ 安装类型选 Minimal Installation(精简安装)。
-
磁盘分区(关键!)
- 选择 手动分区(Manual) → 按以下方案分配(示例):
/ : ext4, 30GB (根分区) /home : ext4, 剩余空间(用户数据) swap : 4GB (内存≤8GB时建议)
- 注意:如果安装Hadoop,后续数据会存到HDFS,
/home
无需过大。
- 选择 手动分区(Manual) → 按以下方案分配(示例):
-
用户名设置
- 用户名建议全英文(如
hadoopuser
),密码简单易记(如123456
,学习用可简化)。
- 用户名建议全英文(如
-
安装后操作
sudo apt update && sudo apt upgrade -y # 更新系统 sudo apt install openssh-server # 安装SSH
二、Hadoop 单机伪分布式安装
1. 前置依赖
# 安装Java(Hadoop 3.x需要Java 8/11)
sudo apt install openjdk-11-jdk -y
java -version # 验证安装
# 配置SSH免密登录(Hadoop脚本依赖)
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
ssh localhost # 测试免密登录
2. 下载并配置Hadoop
# 下载Hadoop 3.3.6(稳定版)
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz -C ~/ # 解压到用户目录
mv ~/hadoop-3.3.6 ~/hadoop # 重命名简化路径
# 配置环境变量
echo '
export HADOOP_HOME=~/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
' >> ~/.bashrc
source ~/.bashrc
3. 修改Hadoop配置文件
编辑以下文件(路径:~/hadoop/etc/hadoop/
):
- core-site.xml(核心配置):
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
- hdfs-site.xml(HDFS配置):
<configuration> <property> <name>dfs.replication</name> <value>1</value> <!-- 单机伪分布式设为1 --> </property> </configuration>
- mapred-site.xml(MapReduce配置):
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- yarn-site.xml(YARN配置):
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
4. 启动Hadoop
# 格式化HDFS(仅第一次需要)
hdfs namenode -format
# 启动所有服务
start-dfs.sh
start-yarn.sh
# 验证进程
jps # 应显示:NameNode, DataNode, ResourceManager, NodeManager
三. 可能出现的报错
1. 找不到命令“vim"
sudo apt update
sudo apt install vim # 标准功能版
2. ERROR: JAVA_HOME is not set and could not be found.
这个错误表明 Hadoop 无法找到 Java 路径(JAVA_HOME
环境变量未正确设置)。以下是完整的解决方案:
1. 确认 Java 已安装
java -version
如果未安装,执行:
sudo apt update
sudo apt install openjdk-11-jdk # Hadoop 3.3.x 推荐 JDK 8 或 11
2. 查找 Java 安装路径
sudo update-alternatives --config java
输出示例:
/usr/lib/jvm/java-11-openjdk-amd64/bin/java
记录路径前缀(去掉 /bin/java
):后面要用到这个路径
/usr/lib/jvm/java-11-openjdk-amd64
3. 永久设置 JAVA_HOME
修改 Hadoop 环境文件
编辑 hadoop-env.sh
:
nano ~/hadoop/etc/hadoop/hadoop-env.sh
找到并取消注释这行,填入你的 Java 路径:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
保存后退出(Ctrl+O
→ Enter
→ Ctrl+X
)。
4. 验证配置
echo $JAVA_HOME # 应显示正确路径
hadoop version # 检查输出是否包含 Java 路径
正常输出示例:
Hadoop 3.3.6
Source code repository https://github.com/apache/hadoop -r ...
Compiled by user on 2023-04-29T10:25Z
Compiled with protoc 3.7.1
From source with checksum ...
This command was run using /usr/lib/jvm/java-11-openjdk-amd64/lib/tools.jar
5. 重新启动 Hadoop
stop-dfs.sh # 先停止服务(如果之前启动失败)
start-dfs.sh # 重新启动
成功时会有类似以下输出:
Starting namenodes on [localhost]
localhost: Starting namenode, logging to /usr/local/hadoop/logs/hadoop-ghost-namenode-ghost-virtual-machine.out
localhost: Starting datanode, logging to /usr/local/hadoop/logs/hadoop-ghost-datanode-ghost-virtual-machine.out
Starting secondary namenodes [ghost-virtual-machine]
ghost-virtual-machine: Starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-ghost-secondarynamenode-ghost-virtual-machine.out
6. 检查服务状态
jps
正常应显示:
Namenode
Datanode
SecondaryNameNode
4. 验证配置
echo $JAVA_HOME # 应显示正确路径
hadoop version # 检查是否输出 Hadoop 版本(含 Java 信息)
5. 重新格式化 HDFS
hdfs namenode -format
成功时会显示 Storage directory /tmp/hadoop-xxx/dfs/name has been successfully formatted
。