Hadoop是一款可靠的、可伸缩的、分布式计算的开源软件。
是一个框架、允许跨越计算机集群的大数据集处理,使用简单的编程模型(MaoReduce)。
可从单个服务器扩展到几千台主机,每个节点提供了计算和存储的功能。而不是依赖高可
用性的机器,依赖于应用层面上的实现
Hadoop有四大模块
1.haddoop common 公共类库
2.HDFS hadoop 分布式文件系统
3.Hadoop yarn 作业调度和资源管理框架
4.Hadoop MapReduce 基于yarn系统的大数据集并行处理技术
MapReduce工作原理如下:
5.Hadoop安装
(1).jdk(建议使用JDK1.8.11)
(2).tar hadoop.tar.gz(建议使用Hadoop2.6.0)
(3)将tar hadoop.tar.gz压缩文件复制到opt根目录下
(4)解压该压缩文件至指定目录下
(5)移动该文件到指定目录下
(6)修改配置文件
①修改hadoop-env.sh文件