Hadoop大数据处理框架简介

最新推荐文章于 2024-07-22 02:03:54 发布

QYUooYUQ

最新推荐文章于 2024-07-22 02:03:54 发布

阅读量4.3k

点赞数

分类专栏：大数据文章标签：程序员编程语言编程大数据

本文链接：https://blog.csdn.net/dsdaasaaa/article/details/93746766

版权

Hadoop是一个开源的分布式计算框架，由Apache基金会维护。它包括HDFS、MapReduce、HBase等组件，用于处理和存储大规模数据。Hadoop的设计允许用户在不了解分布式计算细节的情况下开发应用程序。Hadoop生态系统丰富，包含Hive、Pig、Zookeeper等多个组件，常用于互联网公司的大数据分析。Hadoop经历了从1.0到2.0的演进，2.0引入了YARN资源管理框架，提高了扩展性和资源利用率。

摘要由CSDN通过智能技术生成

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来，Hadoop 被贡献给了 Apache 基金会，成为 Apache 基金会的开源项目。

Hadoop 系统简介

Hadoop 是一种分析和处理大数据的软件平台，是一个用 Java 语言实现的 Apache 的开源软件框架，在大量计算机组成的集群中实现了对海量数据的分布式计算。

Hadoop 采用 MapReduce 分布式计算框架，根据 GFS 原理开发了 HDFS（分布式文件系统），并根据 BigTable 原理开发了 HBase 数据存储系统。

Hadoop 和 Google 内部使用的分布式计算系统原理相同，其开源特性使其成为分布式计算系统的事实上的国际标准。

Yahoo、Facebook、Amazon，以及国内的百度、阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建了自己的分布式计算系统。

Hadoop 是一个基础框架，允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器，每个服务器都能提供本地计算和存储功能，框架本身提供的是计算机集群高可用的服务，不依靠硬件来提供高可用性。

用户可以在不了解分布式底层细节的情况下，轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让 hadoop 成为最流行的大数据分析系统。

Hadoop 生态圈

Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，轻松地在 Hadoop 上开发和运行处理大规模数据的分布式程序，充分利用集群的威力高速运算和存储。

Hadoop 是一个数据管理系统，作为数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。

Hadoop 也是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。

Hadoop 又是一个幵源社区，主要为解决大数据的问题提供工具和软件。

虽然 Hadoop 提供了很多功能，但仍然应该把它归类为由多个组件组成的 Hadoop 生态圈，这些组件包括数据存储、数据集成、数擔处理和其他进行数据分析的专门工具。

图 1 展示了 Hadoop 的生态系统，主要由 HDFS、MapReduce， HBase， Zookeeper， Pig、 Hive 等核心组件构成，另外还包括 Sqoop、Flume 等框架，用来与其他企业系统融合。同时， Hadoop 生态系统也在不断增长，它新增了 Mdhout、Ambari 等内容，以提供更新功能。

最低0.47元/天解锁文章

QYUooYUQ

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Hadoop大数据处理框架简介

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来，Hadoop 被贡献给了 Apache 基金会，成为 Apache 基金会的开源项目。Hadoop 系统简介Hadoop 是一种分析和处理大数据的软件平台，是一个用Java语言实现的 Apac...
复制链接

扫一扫