大数据技术学习系列(一) 初识Hadoop

概述

本文简要介绍Hadoop的起源、发展历史和特性。

Hadoop简介

Hadoop是一个开源的、可运行在大规模集群上的分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce。HDFS是针对谷歌文件系统(Google File System,GFS)的开源实现,它是一种面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式保证了数据的安全性。Mapreduce是一种编程模型,用于大规模数据的并行运算,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价的计算机集群上,完成海量数据的处理。MapReduce的核心思想是“分而治之”,它把输入的数据集切分为若干独立的数据块,分发给一个主节点管理下的各个分节点来共同并行完成,最后整合各个节点的中间结果得到最终结果。

简单地说,Hadoop是一种大数据计算平台,它有两个核心的模块:HDFS和MapReduce。HDFS是对大数据进行存储的工具,MapReduce是对大数据进行处理的工具。

Hadoop的发展简史

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目——一个开源的网络搜索引擎,并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题,不能解决数十亿网页的搜索问题。2003年谷歌公司发布了分布式文件系统GFS方面的论文,可以解决大规模数据存储的问题。于是,在2004年,Nutch项目模仿GFS的分布式文件系统(Nutch Distributed File System,NDFS),也就是HDFS的前身。

2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了Mapreduce分布式编程思想。2005年,Nutch开源实现了谷歌的Mapreduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop。2008年1月,Hadoop成为Apache顶级项目,Hadoop也逐渐开始被许多公司使用。2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用由910个节点构成的集群进行运算,排序时间只用了209s。2009年5月,Hadoop把1TB数据排序时间缩短至62s。Hadoop从此名声大噪,迅速发展成为大数据时代最具有影响力的开源分布式计算平台。

Hadoop的特性

Hadoop是一个能够对海量数据进行分布式处理的软件框架,并且以一种可靠、高效、可伸缩的方式进行处理,它具有以下特性:

  • 高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常提供服务。
  • 高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够处理PB级数据。
  • 高扩展性。Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。
  • 高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
  • 成本低。Hadoop采用廉价的计算机集群,普通用户也很容易用自己的计算机搭建Hadoop运行环境。

参考

《大数据技术原理与应用(第2版)》 人民邮电出版社 ISBN:978-7-115-44330-4

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值