Day1 虚拟机中 Hadoop 的安装与配置

Hadoop
是一个开源的分布式计算平台,它允许使用简单的编程模型在跨机器集群的环境中分布式处理大规模数据集。本博客将指导你如何在虚拟机环境中安装和配置
Hadoop,让你能够开始使用这个强大的大数据处理工具。

环境准备

在开始之前,请确保你已经安装了以下软件:

  • 虚拟机软件,如 Oracle VM VirtualBox。
  • 一个 Linux 操作系统镜像,如 Ubuntu Server。
  • Hadoop 的二进制发行版,可以从 Apache Hadoop 官网下载。

安装步骤

1. 安装 Linux 操作系统

  1. 打开 VirtualBox,创建一个新的虚拟机实例。
  2. 选择 Linux 作为操作系统类型,并选择相应的版本。
  3. 分配足够的内存和存储空间。
  4. 将下载的 Linux 镜像文件挂载到虚拟机上,并启动安装过程。
  5. 按照提示完成 Linux 系统的安装。

2. 安装 Java

Hadoop 需要 Java 环境来运行,因此需要先安装 Java:

sudo apt update
sudo apt install default-jdk

3. 下载 Hadoop

访问 Apache Hadoop 官网下载 Hadoop 的最新版本,或者使用以下命令下载:

wget https://downloads.apache.org/hadoop/common/hadoop-X.X.X/hadoop-X.X.X.tar.gz

4. 解压并配置 Hadoop

  1. 解压 Hadoop 压缩包:
tar -xzf hadoop-X.X.X.tar.gz
  1. 移动解压后的文件夹到合适的位置,例如 /usr/local/
sudo mv hadoop-X.X.X /usr/local/hadoop
  1. 配置 Hadoop 环境变量,在 ~/.bashrc/etc/profile 文件中添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
  1. 应用配置更改:
source ~/.bashrc

5. 配置 Hadoop

  1. 复制 core-site.xmlhdfs-site.xml 模板文件到 hadoop/conf 目录:
cd /usr/local/hadoop
cp core-site.xml.template core-site.xml
cp hdfs-site.xml.template hdfs-site.xml
  1. 编辑 core-site.xmlhdfs-site.xml 文件,配置文件系统和 HDFS 的相关参数。

  2. 编辑 mapred-site.xmlyarn-site.xml 文件,配置 MapReduce 和 YARN 的相关参数。

6. 格式化 HDFS 文件系统

在启动 Hadoop 之前,需要格式化 HDFS 文件系统:

hdfs namenode -format

7. 启动 Hadoop

启动 Hadoop 的所有服务:

start-dfs.sh
start-yarn.sh

8. 验证安装

使用 jps 命令检查 Hadoop 相关进程是否启动:

jps

你应该能看到 NameNode、DataNode、ResourceManager、NodeManager 等进程。

配置伪分布式环境

如果你希望在虚拟机中以伪分布式模式运行 Hadoop,需要在配置文件中做一些修改:

  1. core-site.xml 中设置 fs.defaultFS 属性为 hdfs://localhost:9000
  2. hdfs-site.xml 中配置副本数量为 1。
  3. yarn-site.xml 中配置 ResourceManager 在本地运行。
  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值