Hadoop局限及其解决方案
本章目标
- Hadoop概述
- Hadoop局限
1 Hadoop概述
尽管Hadoop是最强大的大数据处理工具,但是它也有各种局限,比如,Hadoop并不适合小文件,它不能处理实时数据,处理速度慢,迭代处理效率低,缓存效率低等等。
在本节,我们首先学习介绍Hadoop,Hadoop的优劣,Hadoop哪些特点使其如此流行。接着,我们将介绍Hadoop的13个主要的缺点,这也正是Apache Spark和Apache Flink存在的原因。我们还将了解如何克服Hadoop的这些缺点。
Hadoop介绍及其特性
我们先来介绍Hadoop是什么,以及它有哪些特性使其如此流行。
Hadoop是一个用于分布式存储和海量数据分布式处理的开源软件框架,它有如下重要特性:
-
Apache Hadoop是一个开源项目。这意味着你可以根据业务需求修改它的代码。
-
在Hadoop中,数据是高可用的而且尽管会出现硬件故障,但是由于存在多份数据拷贝,仍旧保证了数据的可访问性。如果机器或者任何硬件崩溃,我们可以通过其他路径访问到数据。
-
Hadoop是高度可扩展的,因为,我们可以非常容易地向节点添加新硬件。Hadoop还提供了水平扩展的能力,这就意味着,不需要停机,我们就可以动态地向集群中添加节点。
-
Hadoop是容错的,默认情况下,每个数据块在集群中存储3份副本。因此,任何节点下线,该节点上的数据都会非常容易地从其他节点进行恢复。
-
在Hadoop中,数据可靠地存储在集群上,尽管机器会出现故障,但是由于数据在集群中进行复制,因此数据是可靠的。
-
Hadoop运行在普通硬件之上,成本比较低廉
-
Hadoop非常易用,不需要客户端处理分布式计算问题,框架会为我们完成。
所有技术都有优势和劣势,所有Ha