大数据技术学习系列（一）初识Hadoop

最新推荐文章于 2022-04-04 19:34:49 发布

钢筋哥哥

最新推荐文章于 2022-04-04 19:34:49 发布

阅读量414

点赞数 1

分类专栏：笔记文章标签：大数据

本文链接：https://blog.csdn.net/qq_40845326/article/details/106843538

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大数据处理架构Hadoop

概述

概述

本文简要介绍Hadoop的起源、发展历史和特性。

Hadoop简介

Hadoop是一个开源的、可运行在大规模集群上的分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的，具有很好的跨平台特性，可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce。HDFS是针对谷歌文件系统(Google File System,GFS)的开源实现，它是一种面向普通硬件环境的分布式文件系统，具有较高的读写速度、很好的容错性和可伸缩性，支持大规模数据的分布式存储，其冗余数据存储的方式保证了数据的安全性。Mapreduce是一种编程模型，用于大规模数据的并行运算，允许用户在不了解分布式系统底层细节的情况下开发并行应用程序，并将其运行于廉价的计算机集群上，完成海量数据的处理。MapReduce的核心思想是“分而治之”，它把输入的数据集切分为若干独立的数据块，分发给一个主节点管理下的各个分节点来共同并行完成，最后整合各个节点的中间结果得到最终结果。

简单地说，Hadoop是一种大数据计算平台，它有两个核心的模块：HDFS和MapReduce。HDFS是对大数据进行存储的工具，MapReduce是对大数据进行处理的工具。

Hadoop的发展简史

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目——一个开源的网络搜索引擎，并且也是Lucene项目的一部分。在2002年的时候，Nutch项目遇到了棘手的难题，不能解决数十亿网页的搜索问题。2003年谷歌公司发布了分布式文件系统GFS方面的论文，可以解决大规模数据存储的问题。于是，在2004年，Nutch项目模仿GFS的分布式文件系统(Nutch Distributed File System,NDFS)，也就是HDFS的前身。

2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了Mapreduce分布式编程思想。2005年，Nutch开源实现了谷歌的Mapreduce。到了2006年2月，Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop。2008年1月，Hadoop成为Apache顶级项目，Hadoop也逐渐开始被许多公司使用。2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用由910个节点构成的集群进行运算，排序时间只用了209s。2009年5月，Hadoop把1TB数据排序时间缩短至62s。Hadoop从此名声大噪，迅速发展成为大数据时代最具有影响力的开源分布式计算平台。

Hadoop的特性

Hadoop是一个能够对海量数据进行分布式处理的软件框架，并且以一种可靠、高效、可伸缩的方式进行处理，它具有以下特性：

高可靠性。采用冗余数据存储方式，即使一个副本发生故障，其他副本也可以保证正常提供服务。
高效性。作为并行分布式计算平台，Hadoop采用分布式存储和分布式处理两大核心技术，能够处理PB级数据。
高扩展性。Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点上。
高容错性。采用冗余数据存储方式，自动保存数据的多个副本，并且能够自动将失败的任务进行重新分配。
成本低。Hadoop采用廉价的计算机集群，普通用户也很容易用自己的计算机搭建Hadoop运行环境。

参考

《大数据技术原理与应用(第2版)》人民邮电出版社 ISBN:978-7-115-44330-4

钢筋哥哥

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据技术学习系列（一）初识Hadoop

大数据处理架构Hadoop概述Hadoop简介Hadoop的发展简史Hadoop的特性参考概述本文简要介绍Hadoop的起源、发展历史和特性。Hadoop简介Hadoop是一个开源的、可运行在大规模集群上的分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的，具有很好的跨平台特性，可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce。HDFS是针对谷
复制链接

扫一扫