hadoop api 复制文件_Hadoop核心架构是怎样的？

最新推荐文章于 2023-12-13 11:19:53 发布

weixin_39675215

最新推荐文章于 2023-12-13 11:19:53 发布

阅读量126

点赞数

文章标签： hadoop api 复制文件

本文链接：https://blog.csdn.net/weixin_39675215/article/details/112096837

版权

在大数据处理的诸多技术框架当中，Hadoop始终是不可忽视的一项，即使有了后来的诸多技术框架，诸如Spark、Storm等，但是Hadoop的核心基础架构，依然在实际开发当中得到重用。今天的大数据培训hadoop内容分享，我们主要来讲Hadoop核心架构。

Hadoop的核心，说白了，就是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce为海量数据提供了计算框架。

Hadoop核心架构

首先看看HDFS，典型的主从架构，用TCP/IP通信。

整个HDFS有三个重要角色：NameNode（名称节点）、DataNode（数据节点）和Client（客户机）。

NameNode：是Master节点（主节点），可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode：是Slave节点（从节点），是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

Client：切分文件；访问HDFS；与NameNode交互，获得文件位置信息；与DataNode交互，读取和写入数据。

还有一个Block（块）的概念：Block是HDFS中的基本读写单元；HDFS中的文件都是被切割为block（块）进行存储的；这些块被复制到多个DataNode中；块的大小（通常为64MB）和复制的块数量在创建文件时由Client决定。

再来看MapReduce。

MapReduce其实是一种编程模型。这个模型的核心步骤主要分两部分：Map（映射）和Reduce（归约）。

当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

关于大数据Hadoop核心架构，以上就是今天的讲解内容了。Hadoop在大数据当中，始终有着重大的影响力，所以学习大数据，仍然必学Hadoop。

weixin_39675215

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop api 复制文件_Hadoop核心架构是怎样的？

在大数据处理的诸多技术框架当中，Hadoop始终是不可忽视的一项，即使有了后来的诸多技术框架，诸如Spark、Storm等，但是Hadoop的核心基础架构，依然在实际开发当中得到重用。今天的大数据培训hadoop内容分享，我们主要来讲Hadoop核心架构。Hadoop的核心，说白了，就是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce为海量数据提供了计算框架。Ha...
复制链接

扫一扫