《Hadoop技术内幕:深入解析Hadoop和HDFS》一、1.1什么是Hadoop

数据!数据!数据!

今天,我们正被数据包围。全球 43 亿部电话、20 亿位互联网用户每秒都在不断地产生

大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微

博、点击广告等,使得机器产生和保留了越来越多的数据。数据的指数级增长对处于市场领

导地位的互联网公司,如 Facebook、谷歌、雅虎、亚马逊、腾讯等提出了挑战。它们需要对

TB 级别和 PB 级别的数据进行分析处理,以发现哪些网站更受欢迎,哪些商品更具有吸引

力,哪些广告更吸引用户。传统的工具对于处理如此规模的数据集越来越无能为力。

现在,Hadoop 应运而生,庞大的信息流有了新的处理平台。

1.1 什么是 Hadoop

Hadoop 是 Apache 基金会下的一个开源分布式计算平台,以 Hadoop 分布式文件系统

(Hadoop Distributed File System,HDFS)和 MapReduce 分布式计算框架为核心,为用户

提供了底层细节透明的分布式基础设施。HDFS 的高容错性、高伸缩性等优点,允许用户将

Hadoop 部署在廉价的硬件上,构建分布式系统 ;MapReduce 分布式计算计算框架则允许用

户在不了解分布式系统底层细节的情况下开发并行、分布的应用程序,充分利用大规模的计

算资源,解决传统高性能单机无法解决的大数据处理问题。

Apache Hadoop 是目前分析海量数据的首选工具。

1.1.1 Hadoop 简史

谈到 Hadoop 的历史,就不得不提到 Lucene 和 Nutch。Hadoop 开始时是 Nutch 的一个

子项目,而 Nutch 又是 Apache Lucene 的子项目。这 3 个项目都是由 Doug Cutting 创立,每

个项目在逻辑上都是前一个项目的演进。

Lucene 是引擎开发工具包,提供了一个纯 Java 的高性能全文索引,它可以方便地嵌入

各种实际应用中实现全文搜索 / 索引功能。Nutch 项目开始于 2002 年,是以 Lucene 为基础

实现的搜索引擎应用。Lucene 为 Nutch 提供了文本搜索和索引的 API,Nutch 不光有搜索功能,还有数据抓取的功能。

但很快,Doug Cutting 和 Mike Calarella(Hadoop 和 Nutch 的另一位创始人)就意识到,他们的架构无法扩展以支持拥有数十亿网页的网络。这个时候,Google 的研究人员在 2003年的 ACM SOSP(Symposium on Operating Systems Principles)会议上发表的描述 Google 分布式文件系统(简称 GFS)的论文及时地为他们提供了帮助。GFS 或类似的系统可以解决他们在网络抓取和索引过程中产生的大量文件存储需求。于是,在 2004 年,他们开始写 GFS的一个开源实现,即 Nutch 分布式文件系统(NDFS)。

2004 年,在 OSDI(Operating Systems Design and Implementation)会议上,Google 发表了论文,向全世界介绍了 MapReduce。2005 年初,Nutch 的开发者在 Nutch 上有了一个可工作的 MapReduce 应用,到当年的年中,所有主要的 Nutch 算法被迁移到 MapReduce 和NDFS 上。

在 Nutch0.8.0 版本之前,Hadoop 还属于 Nutch 的一部分,而从 Nutch0.8.0 开始,Doug

Cutting 等人将其中实现的 NDFS 和 MapReduce 剥离出来成立了一个新的开源项目,这就

是 Hadoop。同时,对比以前的 Nutch 版本,Nut

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值