Hadoop
是一个开源的分布式计算平台,它允许使用简单的编程模型在跨机器集群的环境中分布式处理大规模数据集。本博客将指导你如何在虚拟机环境中安装和配置
Hadoop,让你能够开始使用这个强大的大数据处理工具。
环境准备
在开始之前,请确保你已经安装了以下软件:
- 虚拟机软件,如 Oracle VM VirtualBox。
- 一个 Linux 操作系统镜像,如 Ubuntu Server。
- Hadoop 的二进制发行版,可以从 Apache Hadoop 官网下载。
安装步骤
1. 安装 Linux 操作系统
- 打开 VirtualBox,创建一个新的虚拟机实例。
- 选择 Linux 作为操作系统类型,并选择相应的版本。
- 分配足够的内存和存储空间。
- 将下载的 Linux 镜像文件挂载到虚拟机上,并启动安装过程。
- 按照提示完成 Linux 系统的安装。
2. 安装 Java
Hadoop 需要 Java 环境来运行,因此需要先安装 Java:
sudo apt update
sudo apt install default-jdk
3. 下载 Hadoop
访问 Apache Hadoop 官网下载 Hadoop 的最新版本,或者使用以下命令下载:
wget https://downloads.apache.org/hadoop/common/hadoop-X.X.X/hadoop-X.X.X.tar.gz
4. 解压并配置 Hadoop
- 解压 Hadoop 压缩包:
tar -xzf hadoop-X.X.X.tar.gz
- 移动解压后的文件夹到合适的位置,例如
/usr/local/
:
sudo mv hadoop-X.X.X /usr/local/hadoop
- 配置 Hadoop 环境变量,在
~/.bashrc
或/etc/profile
文件中添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
- 应用配置更改:
source ~/.bashrc
5. 配置 Hadoop
- 复制
core-site.xml
和hdfs-site.xml
模板文件到hadoop/conf
目录:
cd /usr/local/hadoop
cp core-site.xml.template core-site.xml
cp hdfs-site.xml.template hdfs-site.xml
-
编辑
core-site.xml
和hdfs-site.xml
文件,配置文件系统和 HDFS 的相关参数。 -
编辑
mapred-site.xml
和yarn-site.xml
文件,配置 MapReduce 和 YARN 的相关参数。
6. 格式化 HDFS 文件系统
在启动 Hadoop 之前,需要格式化 HDFS 文件系统:
hdfs namenode -format
7. 启动 Hadoop
启动 Hadoop 的所有服务:
start-dfs.sh
start-yarn.sh
8. 验证安装
使用 jps
命令检查 Hadoop 相关进程是否启动:
jps
你应该能看到 NameNode、DataNode、ResourceManager、NodeManager 等进程。
配置伪分布式环境
如果你希望在虚拟机中以伪分布式模式运行 Hadoop,需要在配置文件中做一些修改:
- 在
core-site.xml
中设置fs.defaultFS
属性为hdfs://localhost:9000
。 - 在
hdfs-site.xml
中配置副本数量为 1。 - 在
yarn-site.xml
中配置 ResourceManager 在本地运行。