HADOOP1.0简介

最新推荐文章于 2024-07-15 19:00:06 发布

hongwei8707

最新推荐文章于 2024-07-15 19:00:06 发布

阅读量390

点赞数 9

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/hongwei8707/article/details/136567680

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文讲述了Hadoop如何从Nutch项目中诞生，主要得益于谷歌的GFS和MapReduce技术。Hadoop的核心技术HDFS和MapReduce解决了大规模数据存储和计算的问题，具有高可靠性、高扩展性、高效性和高容错性等优点。文章还提到了在Linux平台上搭建Hadoop环境的相关教程和资源。

摘要由CSDN通过智能技术生成

Hadoop最早起源于Nutch。Nutch是一个开源的网络搜索引擎，由Doug Cutting于2002年创建。Nutch的设计目标是创建一个大型的全网搜索引擎，但随着网页数量的增加，遇到了严重的可扩展性问题，即不能解决数十亿网页的存储和索引问题。之后，谷歌发表的两篇论文为该问题提供了可行的解决方案。

一篇是2003年发表的关于谷歌分布式文件系统（GFS Google File System）的论文。该论文描述了谷歌搜索引擎网页相关数据的存储架构，该架构可解决Nutch遇到的网页抓取和索引过程中产生的超大文件存储需求的问题。但由于谷歌仅开源了思想而未开源代码，Nutch项目组便根据论文完成了一个开源实现，即Nutch的分布式文件系统（NDFS）。

另一篇是2004年发表的关于谷歌分布式计算框架MapReduce的论文。该论文描述了谷歌内部最重要的分布式计算框架MapReduce的设计艺术，该框架可用于处理海量网页的索引问题。同样，由于谷歌未开源代码，Nutch的开发人员完成了一个开源的实现。由于NDFS和MapReduce不仅适用于搜索领域，2006年年初，开发人员便将其移出Nutch，成为Lucene的一个子项目，称为Hadoop。同年2月，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2008年1月，Hadoop成为Apache顶级项目，迎来了它的快速发展期。

HDFS和MapReduce是Hadoop的框架最核心的两个技术。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。

它主要有以下几个优点：