Hadoop 是 Apache 基金会开发的一个分布式系统基础架构,主要解决海量数据的存储和分析计算问题。具有高可靠性、高扩展性、高效性、高容错性的特点。
下一篇文章介绍 Hadoop 的体系结构。
发行版本
Hadoop 的发型版本包括以下三个版本:
- Apache Hadoop
最基础、最原始的版本。
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
- Cloudera Hadoop
是 Hadoop 的商用版本,也叫 CDH 版,在大型企业中使用得比较多。
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
- Hortonworks
为雅虎开发的 Hadoop,文档比较好,但市场份额不高。
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
安装
Linux 是支持 Hadoop 是最佳系统。也可以在 windows 上安装第三方软件模拟 Linux 系统,如 Cygwin。也可以或者修改配置来支持 windows。
除了操作系统的支持,还需要安装 Java 的 JDK。
本文以在 Ubantu 18.04 上安装 Hadoop 2.10.1 为例。
- 安装 JDK
登录 http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载 JDK 压缩包。
进入目录,用超级用户权限解压缩。
sudo tar -xvf jdk-8u311-linux-x64.tar.gz
修改环境变量,
vi /home/username/.bashrc
增加路径,
export JAVA_HOME=/opt/jdk1.8.0_311
export PATH=$JAVA_HOME/bin:${PATH}
激活环境变量,并验证。
source .bashrc
java -version
如果只用 export 命令仅表示设置了临时环境变量,关闭掉终端后,该设置消失。
设置 /etc/profile 中添加的环境变量所有用户有效,而 ~/.bashrc 中的环境变量仅当前用户有效。
- 从官网下载 Hadoop
官网:https://archive.apache.org/dist/hadoop/common/
下载之后找到压缩包所在路径,用超级用户权限解压缩。
sudo tar -xvf hadoop-2.10.1.tar.gz
- 设置环境变量
修改 .bashrc 文件,添加环境变量。
expert HADOOP_HOME=/opt/hadoop-2.10.1
expert PATH=$HADOOP_HOME/bin:${PATH}
expert PATH=$HADOOP_HOME/sbin:${PATH}
- 修改 hadoop-env.sh 文件
vi /opt/hadoop-2.10.1/etc/hadoop/hadoop-env.sh
删除掉导入 Java 环境的前的注释符,并修改环境变量路径。
export JAVA_HOME=/opt/jdk1.8.0_311
- 配置 SSH 免密码登录
这是由于 Hadoop 需要在多个进程间通信。首先要安装 SSH,有些 Linux 已经安装了 SSH。
生成一堆空口令的密钥对。输入该命令后不用做任何设置,一路点击回车键就行。
ssh-keygen -t rsa -P ""
把生成的公钥复制到已授权的列表当中。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
配置 SSH 这一环节其实是 Linux 本身的内容,并非 Hadoop 内容。
如果没有输入口令就建立了远程连接,则说明正确设置。
ssh localhost
如果遇到 22 端口无法连接的错误,就需要检查一下系统是否安装 ssh server 或者它是否已经启动。
查看 ssh 是否已经启动,按 q
退出。
sudo systemctl status ssh
安装 ssh 并启动。
sudo apt update
sudo apt install openssh-server
Ubuntu 附带了一个名为 UFW 的防火墙配置工具。如果系统上启用了防火墙,请确保打开SSH端口。
sudo ufw allow ssh
本文讲述了 Hadoop 的下载和安装,另一篇文章讲解 Hadoop 的运行模式及配置。
目录结构
进入 Hadoop 目录,我们能看到以下几个文件夹:
- bin:存放一些基础的服务,常用的有 hdfs 管理文件系统,hadoop 管理集群,yarn 管理资源调度;
- etc:存放各种配置信息;
- include:包含头文件;
- lib:本地库;
- sbin:存放各种组件启动、停止的方法。
- share:存放说明文档和手册,还有一些提供的案例。