一 优势
Hadoop作为大数据概念中重要的分布式框架其优势总结出来大概有四点:
1.高可靠
Hadoop底层维护了多个数据副本,这样使得其本身某个节点出现故障无论是计算还是储存都不会导致数据丢失。
2.高扩展
分布式架构,在集群上分配任务数据,随时可以扩展几百上千个节点。
3.高效率
MapReduce在计算过程中是并行处理的,大大加快了数据处理的速度。
4.高容错
对自身失败的任务可实现自动重新分配。
二 组成
Hadoop1时代由MapReduce、HDFS和辅助工具组成,其中MapReduce承担了计算和资源调度的任务,在Hadoop2时代计算和资源调度为了降低耦合度被拆分开来,由MapReduce(计算)、Yarn(资源调度)、HDFS(存储)和辅助工具等部分组成。