HADOOP:


   是一个适合大数据分布式存储(HDFS)并行计算(MapReduce)平台.

   是由Doug Cutting编写的。原来是nutch下的一个子项目,主要用来做搜索引擎。


   特点:1.扩容能力强,

         2.成本低:可使用普通pc集群来实现

         3.高效率:通过分发数据,可以实现并行处理数据,使得处理速度很快

         4.可靠性:能够自动维护数据的多个副本,计算任务失败后能自动的重新部署计算任务。

   架构图:


Hadoop两大核心:-----------------------------


1.HDFS:hadoop Distributed FileSystem(分布式的文件存储系统)

2.MapReduce:并行的计算框架。


HDFS的架构:

   HDFS采用主从结构(master/slave)


   主节点:NameNode  ---- 只有一个

    从节点:DataNode ---- 可以有多个


   NameNode的职责:

           1.接受用户的操作请求

           2.维护文件系统的目录结构

           3.管理文件与block块之间,block与DataNode之间的关系


   DataNode的职责:

           1.存储文件

           2.文件被分成了一个个的block块存储在DataNode节点的磁盘上

           3.为了保证数据的安全,文件会存在多个副本(副本的存放策略:默认有3个副本,一个副本存放在本地机架节点上,一个存放在本地机架的另一个节点上,最后一个存放在另一个机架的节点上,这样就减少了机架之间的数据传输,加快了写操作的速率)


   2.MapReduce的架构:


       MapReduce采用了主从架构:


       主节点:JobTracker----只有一个

       从节点:TaskTracker---可以有多个


       jobTracker:

           1.接受客户提交的计算请求

           2.把计算任务分配给TaskTracker执行

           3.监控TaskTracker的执行情况


       TaskTracker:

           1.执行JobTracker分配的计算任务。