这篇博客主要给大家讲讲Hadoop是啥...
Hadoop介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
该架构主要用于开发分布式程序,主要适用于并行高速计算和分布式存储。
Hadoop发展历程
2004年,Google发表论文,向全世界介绍什么是MapReduce。
2005年,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作的MapReduce应用。(hadoop的前身)。
2007年,百度开始使用hadoop做离线处理。
2008年1月,Hadoop成为Apache顶级项目。
2008年7月,Hadoop打破1TB数据排序基准测试记录—— 209秒。
2009年,Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera's Distribution including Apache Hadoop)。
2010年,扩大的Hadoop社区建立大量的新组建来扩展Hadoop的使用场景。
2012年,企业必须的功能NameNode HA 被加入Hadoop主版本。
Hadoop核心组件
Hadoop的框架三大核心组件就是:HDFS、YARN和MapReduce。
HDFS(Hadoop Distributed File System),为海量的数据提供了分布式存储,为Hadoop框架的分布式文件系统。
YARN,负责海量数据运算时的资源调度。
MapReduce(简称MR)为海量的数据提供了并行计算,为Hadoop框架的并行计算框架。
这三个组件将会后面的博客有具体介绍。
Hadoop的适用场景
适合
- 大规模数据
- 流式数据(写一次,读多次)
- 商用硬件(一般硬件)
不适合
- 低延时的数据访问
- 大量的小文件
- 频繁修改文件(基本就是写1次)
Hadoop的优点
-
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
-
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
-
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
-
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
-
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
尽情期待下篇HDFS(分布式文件系统)架构讲解。