Hadoop概述总结
1.Hadoop做什么
–apache 分布式系统基础架构
–海量数据存储
–数据分析计算
2.大数据特点
–海量、高速、多样化(结构,非结构化数据)、高价值低密度
3.Hadoop–4高
–高可靠性:hadoop底层维护了多个数据副本(每台机器中只维护一个副本),保证数据存储或计算时即使出现故障,也不会造成数据的丢失
–高扩展性:hadoop集群之间分配任务数据,可方便的扩展数以千计的节点
–高效性:MapReduce思想下,hadoop是并行工作的,以加快任务处理速度
–高容错性:hadoop能够自动的将失败的任务重新分配
4.Hadoop不同版本组成对比
hadoop1.x | hadoop2.x/3.x |
---|---|
MapReduce(计算+资源调度) | MapReduce(只负责计算) |
HDFS分布式文件系统(数据存储) | HDFS分布式文件系统(数据存储) |
Common(辅助工具) | Common(辅助工具) |
资源指的是内存,磁盘,网络,cpu等 | Yarn(只负责资源调度)资源,主指内存 |