网上有很多介绍Hadoop安装部署的资料,这篇文章不会向大家介绍Hadoop的安装及部署方法,我会重点向大家介绍Hadoop实现的基本原理,这样当我们今后学习Hadoop生态相关的知识时可以快速入门。
Hadoop是什么
我们首先要知道Hadoop是什么,按照官方的解释,Hadoop是一个由Apache基金会开发的分布式系统基础架构,可提供高可用、高扩展、高效、低成本的服务。
Hadoop提供的服务包括HDFS、MapReduce和YARN;其中HDFS用于海量数据的存储,MapReduce用于海量数据的分析和计算,YARN怎用于资源的管理和调度,
Hadoop的高可用、高扩展及低成本的特性就是通过以上三种服务实现的。Hadoop适用于处理海量数据,如果数据量不大则不建议使用Hadoop。
Hadoop的生态圈包括以下常用的软件,其中HDFS、YARN、MapReduce是Hadoop提供的核心服务;其它的则是依赖Hadoop构建的应用。
HDFS介绍
HDFS即Hadoop分布式文件系统(Hadoop Distribute File System),用于存储海量数据,HDFS维护了一套虚拟的文件系统用户管理保存的数据;HDFS使用普通的PC机即可,这也是使用Hadoop处理大数据成本相对较低的原因。文件保存在Hadoop上时,Hadoop会根据配置将文件保存多个副本,这样当有一台机器宕机时,获取文件不受任何影响,实现了高可用。
HDFS主要提供了NameNode和DataNode两个服务,其中Name用于接收客户端的请求、保存元数据;D