大数据扫盲!详解Hadoop核心架构

最新推荐文章于 2023-07-05 09:29:22 发布

juan333

最新推荐文章于 2023-07-05 09:29:22 发布

阅读量262

点赞数

分类专栏： Hadoop 大数据开发程序员文章标签： Hadoop 大数据开发编程语言 spark linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/juan333/article/details/103892231

版权

本文详细介绍了Hadoop分布式计算平台的关键组件，包括HDFS的主从结构、文件写入与读取过程，MapReduce的工作原理以及在任务调度中的角色，以及Hive和Hbase在数据仓库和分布式数据库中的应用。HDFS通过NameNode和DataNode管理数据，MapReduce实现分布式计算，Hive提供类SQL查询功能，而Hbase则是适合大量插入和读取操作的列式数据库。

摘要由CSDN通过智能技术生成

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的所有技术核心。

大数据扫盲!详解Hadoop核心架构

通过阶段性的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。

HDFS的体系架构

整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过MR来实现对分布式并行任务处理的程序支持。

HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的（在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能，在最新的版本中就已经实现了）。NameNode作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。

从内部来看，文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

大数据扫盲!详解Hadoop核心架构

HDFS体系结构图

图中涉及三个角色：NameNode、DataNode、Client。NameNode是管理者，DataNode是文件存储者、Client是需要获取分布式文件系统的应用程序。

文件写入：

1）Client向NameNode发起文件写入的请求。

2）NameNode根据文件大小和文件块配置情况，返回给Client它管理的DataNode的信息。

3）Client将文件划分为多个block，根据DataNode的地址，按顺序将block写入DataNode块中。

文件读取：

1）Client向NameNode发起读取文件的请求。

2）NameNode返回文件存储的DataNode信息。

3）Client读取文件信息。

HDFS作为分布式文件系统在数据管理方面可借鉴点：

文件块的放置：一个Block会有三份备份，一份在NameNode指定的DateNode上，一份放在与指定的DataNode不在同一台机器的DataNode上，一根在于指定的DataNode在同一Rack上的DataNode上。备份的目的是为了数据安全，采用

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据扫盲!详解Hadoop核心架构

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的所有技术核心。通过阶段性的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。H...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。