Hadoop介绍：什么是Hadoop？了解Hadoop的应用

最新推荐文章于 2024-06-11 09:38:33 发布

Zzzxt007

最新推荐文章于 2024-06-11 09:38:33 发布

阅读量3.5k

点赞数 12

CC 4.0 BY-SA版权

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/qq_74350135/article/details/138231947

一、认识Hadoop框架

Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。

Hadoop框架主要包括HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）、MapReduce、YARN（Yet Another Resource Negotiator，另一种资源协调者）等模块。其中，HDFS是Hadoop集群中最根本的文件系统，提供了高扩展、高容错、机架感知数据存储等特性，可以非常方便的部署在机器上面。MapReduce是Hadoop的分布式计算框架，它将数据处理分成两个阶段，即Map阶段和Reduce阶段。在Map阶段，数据会被分成多个小的数据块，然后由不同的Map任务并行处理；在Reduce阶段，中间结果会被分组，并且由不同的Reduce任务并行处理，生成最终的输出结果。YARN则负责为Hadoop作业分配和管理资源。

Hadoop的工作原理主要依赖HDFS和MapReduce。HDFS将大文件分割成多个块，并存储在不同的计算节点上，以提高数据的可靠性和容错性。MapReduce则将数据处理分成Map阶段和Reduce阶段，通过并行处理来加快数据处理的速度。

Hadoop的优点包括：