HADOOP:
是一个适合大数据的分布式存储(HDFS)和并行计算(MapReduce)平台.
是由Doug Cutting编写的。原来是nutch下的一个子项目,主要用来做搜索引擎。
特点:1.扩容能力强,
2.成本低:可使用普通pc集群来实现
3.高效率:通过分发数据,可以实现并行处理数据,使得处理速度很快
4.可靠性:能够自动维护数据的多个副本,计算任务失败后能自动的重新部署计算任务。
架构图:
Hadoop两大核心:-----------------------------
1.HDFS:hadoop Distributed FileSystem(分布式的文件存储系统)
2.MapReduce:并行的计算框架。
HDFS的架构:
HDFS采用主从结构(master/slave)
主节点:NameNode ---- 只有一个
从节点:DataNode ---- 可以有多个
NameNode的职责:
1.接受用户的操作请求
2.维护文件系统的目录结构
3.管理文件与block块之间,block与DataNode之间的关系
DataNode的职责:
1.存储文件
2.文件被分成了一个个的block块存储在DataNode节点的磁盘上
3.为了保证数据的安全,文件会存在多个副本(副本的存放策略:默认有3个副本,一个副本存放在本地机架节点上,一个存放在本地机架的另一个节点上,最后一个存放在另一个机架的节点上,这样就减少了机架之间的数据传输,加快了写操作的速率)
2.MapReduce的架构:
MapReduce采用了主从架构:
主节点:JobTracker----只有一个
从节点:TaskTracker---可以有多个
jobTracker:
1.接受客户提交的计算请求
2.把计算任务分配给TaskTracker执行
3.监控TaskTracker的执行情况
TaskTracker:
1.执行JobTracker分配的计算任务。
转载于:https://blog.51cto.com/hellowode/1367042