Hadoop(1)
Hadoop简介和Hadoop的安装
Hadoop 简介
Hadoop概念
- 由Apache基金会开发的一个分布式系统基础架构
- 主要解决海量数据的存储和海量数据的计算问题
- 借鉴了谷歌的GFS和Map-Reduce方面的两篇论文
Hadoop的常见发行版本
- Apache
原始版本
- Cloudera
大型互联网企业中使用较多
- Hortonworks
文档较好
Hadoop的版本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nWPoptwR-1577090421576)(未命名.assets/1576677600746.png)]
- Hadoop1.0:包含了HDFS以及MapReduce
- Hadoop2.0:包含了HDFS、MapReduce以及Yarn.Hadoop2.0和Hadoop1.0完全不兼容,在Hadoop2.0的高本版中,也支持Ozone
- Hadoop3.0:包含了Hadoop所有的模块
Hadoop的优势
-
高可靠性
有多个副本
高扩展性
-
高效性
计算机任务可以并行运行
-
高容错性
能够自动将失败的任务重新分配
Hadoop的组成
现在常用的是Hadoop2.x版本,所以现在常见的组成:
HDFS(存储数据)
- NameNode: 存储元数据,相当于一个索引,只有一个
DataNode: 文件数据块,有备份,可以有多个
Secondary NameNode: HDFS状态的后台辅助程序
MapReduce (计算)
- Maper
- Reducer
Yarn(资源调度)
-
ResourceManager:
只有一个,负责处理客户端的请求,和整个集群的调度
-
NodeManager:
管理单个节点
-
ApplicationMaster:
一个临时的管理程序,一个任务对应一个
-
Container:
容器,封装了某个节点的资源
Common(辅助工具)
Hadoop的安装
- 将Hadoop的tar.gz安装包解压(一般是 /opt/ 目录下)
tar -zxv -f hadoop-2.7.7.tar.gz -C /opt/module/
- 配置Hadoop的环境变量(/etc/profile)
vim /etc/profile
添加以下内容:
export HADOOP_HOME=/opt/hadoop-2.7.7(这个是刚刚Hadoop解压到的目录路径)
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后保存退出
- 加载配置文件
source /etc/profile
- 测试是否安装成功
hadoop version