通俗来讲,Hadoop是由Apache软件基金会所开发出来的开放源代码分布式计算技术,是以Java语言开发,专门针对大量且结构复杂的大数据分析所设计,其目的不是为了瞬间反应、撷取和分析数据,而是通过分布式的数据处理模式,大量扫描数据文件以产生结果。其在效能与成本上均具有优势,再加上可通过横向扩充,易于应对容量增加的优点,因而备受瞩目。
Hadoop不需要使用商业服务器,在一般个人计算机上就能运转。用户可利用网络连接两台以上的电脑组成服务器群,即所谓的“丛集”,丛集内的主机会分工合作处理数据。随着需要处理的数据量越来越大,只要不断增加计算机数量,而不需修改应用程序代码,就能立即提高Hadoop的运算能力。
总而言之,Hadoop可以用更低的成本,得到更高的运算效能,提高数据分析的能力,也难怪有些人称Hadoop为大数据的救星,这说法虽然夸张,但却有几分真实,因为通过Hadoop,就算资金不够雄厚的个人或组织,也能分析大量的结构与非结构数据。
Hadoop的组成,Hadoop的组成主要分为三个部分,分别为最著名的分布式文件系统(HDFS)、MapReduce框架、储存系统(HBase)等组件。