Hadoop 笔记(〇)安装

本文详细介绍了如何在Ubuntu 18.04上安装Hadoop 2.10.1,包括下载Apache Hadoop的基础版本,设置JDK环境变量,配置Hadoop环境变量,实现SSH免密码登录等关键步骤。此外,还提到了Hadoop的目录结构及其主要文件夹的作用。
摘要由CSDN通过智能技术生成

Hadoop 是 Apache 基金会开发的一个分布式系统基础架构,主要解决海量数据的存储和分析计算问题。具有高可靠性、高扩展性、高效性、高容错性的特点。

下一篇文章介绍 Hadoop 的体系结构

发行版本

Hadoop 的发型版本包括以下三个版本:

  • Apache Hadoop

最基础、最原始的版本。

官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/

  • Cloudera Hadoop

是 Hadoop 的商用版本,也叫 CDH 版,在大型企业中使用得比较多。

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

  • Hortonworks

为雅虎开发的 Hadoop,文档比较好,但市场份额不高。

官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform

安装

Linux 是支持 Hadoop 是最佳系统。也可以在 windows 上安装第三方软件模拟 Linux 系统,如 Cygwin。也可以或者修改配置来支持 windows。

除了操作系统的支持,还需要安装 Java 的 JDK。

本文以在 Ubantu 18.04 上安装 Hadoop 2.10.1 为例。

  1. 安装 JDK

登录 http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载 JDK 压缩包。

进入目录,用超级用户权限解压缩。

sudo tar -xvf jdk-8u311-linux-x64.tar.gz

修改环境变量,

vi /home/username/.bashrc

增加路径,

export JAVA_HOME=/opt/jdk1.8.0_311
export PATH=$JAVA_HOME/bin:${PATH}

激活环境变量,并验证。

source .bashrc
java -version

如果只用 export 命令仅表示设置了临时环境变量,关闭掉终端后,该设置消失。
设置 /etc/profile 中添加的环境变量所有用户有效,而 ~/.bashrc 中的环境变量仅当前用户有效。

  1. 从官网下载 Hadoop

官网:https://archive.apache.org/dist/hadoop/common/

下载之后找到压缩包所在路径,用超级用户权限解压缩。

sudo tar -xvf hadoop-2.10.1.tar.gz
  1. 设置环境变量

修改 .bashrc 文件,添加环境变量。

expert HADOOP_HOME=/opt/hadoop-2.10.1
expert PATH=$HADOOP_HOME/bin:${PATH}
expert PATH=$HADOOP_HOME/sbin:${PATH}
  1. 修改 hadoop-env.sh 文件
vi /opt/hadoop-2.10.1/etc/hadoop/hadoop-env.sh

删除掉导入 Java 环境的前的注释符,并修改环境变量路径。

export JAVA_HOME=/opt/jdk1.8.0_311
  1. 配置 SSH 免密码登录

这是由于 Hadoop 需要在多个进程间通信。首先要安装 SSH,有些 Linux 已经安装了 SSH。

生成一堆空口令的密钥对。输入该命令后不用做任何设置,一路点击回车键就行。

ssh-keygen -t rsa -P ""

把生成的公钥复制到已授权的列表当中。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

配置 SSH 这一环节其实是 Linux 本身的内容,并非 Hadoop 内容。

如果没有输入口令就建立了远程连接,则说明正确设置。

ssh localhost

如果遇到 22 端口无法连接的错误,就需要检查一下系统是否安装 ssh server 或者它是否已经启动。

查看 ssh 是否已经启动,按 q 退出。

sudo systemctl status ssh

安装 ssh 并启动。

sudo apt update
sudo apt install openssh-server

Ubuntu 附带了一个名为 UFW 的防火墙配置工具。如果系统上启用了防火墙,请确保打开SSH端口。

sudo ufw allow ssh

本文讲述了 Hadoop 的下载和安装,另一篇文章讲解 Hadoop 的运行模式及配置。

目录结构

进入 Hadoop 目录,我们能看到以下几个文件夹:

  • bin:存放一些基础的服务,常用的有 hdfs 管理文件系统,hadoop 管理集群,yarn 管理资源调度;
  • etc:存放各种配置信息;
  • include:包含头文件;
  • lib:本地库;
  • sbin:存放各种组件启动、停止的方法。
  • share:存放说明文档和手册,还有一些提供的案例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值