Hadoop到底是什么？

最新推荐文章于 2024-04-18 17:37:57 发布

JamesLi_zmxy

最新推荐文章于 2024-04-18 17:37:57 发布

阅读量405

点赞数 3

分类专栏：大数据分析文章标签： hadoop 大数据数据分析

大数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

众所周知，大数据这个概念已经热炒了3年多，现在终于慢慢冷静下来也成熟起来，也意味着真正进入应用阶段。任何系统、任何公司的核心都是数据。目前社会最具发展前景的行业，现在流行hadoop，Hadoop是Apache软件基金会管理的开源软件平台，但Hadoop到底是什么呢？简单来说，Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。

以下是Apache的正式定义：

Apache Hadoop软件库是一个框架，允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器，每台服务器都有本地的计算和存储资源。Hadoop的高可用性并不依赖硬件，其代码库自身就能在应用层侦测并处理硬件故障，因此能基于服务器集群提供高可用性的服务。

如果更深入地分析，我们发现Hadoop还有更加精彩的特性。首先，Hadoop几乎完全是模块化的，这意味着你们能用其他软件工具抽换掉Hadoop的模块。这使得Hadoop的架构异常灵活，同时又不牺牲其可靠性和高效率。

Hadoop分布式文件系统（HDFS）

如果提起Hadoop你的大脑一片空白，那么请牢记住这一点：Hadoop有两个主要部分：一个数据处理框架和一个分布式数据存储文件系统（HDFS）。

HDFS就像Hadoop系统的篮子，你把数据整整齐齐码放在里面等待数据分析大厨出手变成性感的大餐端到CEO的桌面上。当然，你可以在Hadoop进行数据分析，也可以见gHadoop中的数据“抽取转换加载”到其他的工具中进行分析。