Hadoop是什么
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop,可以将多台计算机组成集群以便更快地并行分析海量数据集,而不是使用一台大型计算机来存储和处理数据。
Hadoop的组成
Hadoop 是如何运作的
Hadoop 让利用集群服务器中的全部存储和处理能力,针对大量数据执行分布式处理变得更简单。Hadoop 提供构建基块,然后在其上方构建其他服务和应用程序。
Hadoop的优势
① 高可靠性
Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
② 高扩展性
在集群间分配任务数据,可方便的扩展数以千计的节点。
③ 高效性
在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
④ 高容错性
能够自动将失败的任务重新分配。