大数据各组件原理总结（详细）

最新推荐文章于 2025-03-25 12:57:37 发布

置顶

这条gai最靓的华哥

最新推荐文章于 2025-03-25 12:57:37 发布

阅读量2.6k

点赞数 4

分类专栏：大数据原理组件文章标签：大数据 hadoop spark flume kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hua_ge_zui_liang/article/details/107688367

版权

本文目录

Hadoop 原理
- hdfs读流程
- hdfs写流程
Hive 原理
HBase 原理
Flume 运行原理
kafka 原理
MapReduce 原理
Spark 原理

Hadoop 原理

hdfs读流程

HDFS文件读流程：
在这里插入图片描述

客户端读取数据的过程如下：

（1）首先客户端会调用FileSystem. open()方法获取的dfs实例，dfs会向远程的NameNode发送RPC请求。
（2）然后NameNode会视情况返回文件的部分或全部的块列表，对于每个块呢，都包含块所在的DataNode地址，这些DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离，然后进行排序，客户端会选择离他最近的DataNode来读取块，如果客户端本身就是一个DataNode，那么将从本地读取文件。
（3）读取完当前块数据后，关闭当前的DataNode连接，并为读取下一个块寻找最佳的DataNode。
（4）然后客户端会继续向NameNode获取下一批块列表，当所有的block块完都读完后，这时就会调用close方法来完成资源的关闭操作。

hdfs写流程

HDFS文件写流程：
在这里插入图片描述
客户端写数据的过程如下：

（1）检查目标文件是否已存在，父目录是否存在。
（2）NameNode 返回是否可以上传。不能上传会返回异常。
（3）确定可以上传，客户端请求第一一个block 上传到哪几个datanode服务器上
（4）NameNode返回3个datanode节点，假定分别为dn1、dn2、 dn3。
（5）客户端通过FSDataOutputStream模块请求dn1.上传数据，dn1 收到请求会继续调用dn2,然后dn2调用dn3，将这个通信管道建立完成。
（6）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。