HDFS写流程

最新推荐文章于 2024-09-26 17:10:31 发布

考完不挂

最新推荐文章于 2024-09-26 17:10:31 发布

阅读量63

点赞数

分类专栏：大数据导论文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/dashujubaomanda/article/details/120980155

版权

大数据导论专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1，首先客户端向Nn发送写数据请求。

2，Nn检查目录是否存在，hdfs上是否有此文件。

3，向客户端回复可否上传。

4，客户端向Nn上传blk1.

5，Nn查询Dn的信息，确认是否支持上传，筛选可上传的Dn。

6，Nn向客户端提示可上传的Dn。

6，客户端选离自己最近的Dn请求上传blk1。被筛选的Dn之间互通blk1上传的请求。

7，Dn与客户端建立pipeline（管道）。

8，客户端上传数据到Dn1，Dn2，Dn3.

9，等所有Dn保存完之后，Dn向客户端和Nn发送上传完成的消息，上传完毕。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

考完不挂

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

HDFS读写流程.xmind

04-03

HDFS读写数据流程描述，脑图展示，易于理解与记忆，仅供学习使用。HDFS分布式文件系统是一个主从架构，主节点是NameNode，负责管理整个集群以及维护集群的元数据信息；从节点是DataNode，主要负责文件数据存储。

HDFS读写流程&NameNode;工作机制流程图原件

10-16

HDFS读写流程&NameNode;工作机制流程图原件，用于修改和调整

参与评论您还未登录，请先登录后发表或查看评论

Hadoop技术HDFS数据读写流程共7页.pdf.zip

11-21

本文件" Hadoop技术HDFS数据读写流程共7页.pdf "显然提供了关于HDFS数据读写过程的详细信息，虽然实际的文档内容无法在此直接展示，但根据标题和描述，我们可以深入探讨HDFS的数据读写流程，以及它在Hadoop生态系统...

【HDFS篇06】HDFS数据读写流程1

08-04

本篇文章主要探讨HDFS的数据读写流程，特别是写数据的过程。首先，我们关注HDFS的写数据流程： 1. **发起上传请求**：客户端通过Distributed FileSystem模块向NameNode发起请求，意图上传一个文件。NameNode是...

HDFS操作流程+代码操作HDFS

01-07

读流程客户端发起RPC请求访问NameNode namenode会查询元数据，找到这个文件的存储位置对应的数据块信息 namenode将文件对应的数据块的节点地址全部或者部分放入一个队列中然后返回 client收到这个数据块对应的节点...

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧

志在创建优质博客、通俗易懂、助力大家提高学习效率！

08-12

1509

在数据处理和分析中，表连接（Join）是一种常用的操作，用于将两个或多个表中满足特定条件的数据行组合在一起。PySpark提供了多种连接函数，允许用户根据不同的键进行内连接、外连接、左连接和右连接。PySpark中的连接函数是处理和分析数据集的重要工具。通过本博客的代码示例，我们学习了如何使用不同的连接类型和条件来合并数据。希望这篇博客能够帮助你更好地理解PySpark中的连接操作，并将其应用于实际的数据处理任务中。

Hadoop三大组件之HDFS（一）

m0_58076578的博客

09-20

892

HDFS（Hadoop Distributed File System）采用主从架构，由一个NameNode（主节点）和多个DataNode（从节点）组成。NameNode负责管理数据块映射信息（如文件名、文件目录、权限、块位置等）并配置副本策略，而DataNode负责存储实际的数据块。定期从NameNode获取fsimage和edits文件，合并生成新的fsimage文件，发送回NameNode，以减小edits文件大小，防止NameNode重启时加载过多日志。较大文件块减少寻址时间，提高传输效率。

基于Hadoop的NBA球员大数据分析及可视化系统

计算机学姐的博客

09-26

855

Python 如何调用讯飞星火大模型API

hello_1995的博客

09-21

1191

讯飞星火是科大讯飞推出的一款先进的人工智能大模型，它具备强大的语言理解和知识问答能力，能够在多种场景中提供智能化服务。2024年6月27日，科大讯飞发布了讯飞星火大模型V4.0版本，全面对标GPT-4 Turbo。

如何实现全行业证照一站式结构化识别？Textln企业资质证照识别上线！

最新发布

b_qixin的博客

09-26

295

对于无Key的Value信息，例如下图中的证照名称“药品经营许可证”，模型也可基于强大的语义理解能力与所具备的专项领域知识，实现准确完整的关键信息抽取。，并理解信息间的对应关系，以“K-V对”的形式自动实现证照中全部关键信息的结构化抽取，提升信息数据的提取和录入效率。除抽取证照中的文本信息外，模型集成了印章检测能力，可以捕捉资质证照中的印章信息，并输出印章的类型、颜色、形状及内容。自动识别录入企业经营资质信息，可应用于机构开户、经营性贷款审批等金融服务场景，提升信息录入效率，控制业务风险。

[单master节点k8s部署]23.构建EFK日志收集平台（二）

weixin_45396500的博客

09-24

946

这里的PVC的name是data，这里容器绑定的存储名称也是data，路径为/usr/share/elasticsearch/data。创建了elasticsearch的服务（elasticsearch_svc.yaml）,定义了两个接口，一个是对外的，一个是elasticsearch集群内部通信的。这里的三个初始化容器是为了更好的准备elasticsearch的容器环境，确保在elasticsearch启动之前，所有的权限都已经配置正确。这里需要介绍pod的创建顺序。

ElasticSearch的搜索方式

gaoqiandr的博客

09-21

672

本文主要介绍的是Elasticsearch的基本搜索方式

大数据新视界 --大数据大厂之算法在大数据中的核心作用：提升效率与智能决策

青云交的博客

09-20

2606

本文深入剖析算法在大数据中的核心作用。从提升大数据处理效率和助力智能决策两方面展开，涵盖数据过滤与清洗、并行计算优化等多种算法，结合实际案例与代码示例，阐述其原理、优势、局限性及优化方法。强调算法与新兴技术融合的未来发展方向，同时关注安全性、伦理和社会责任。呼吁读者参与互动讨论，分享算法应用经验及对未来发展的期待建议。

企业内训｜大模型/智算行业发展机会深度剖析-某数据中心厂商

weixin_48649532的博客

09-26

946

汶生老师在培训中深入剖析了大模型的底层原理、技术进展以及在全球及国内的竞争态势，强调大模型在未来的发展将依赖于AI生成的数据和更高效的算力解决方案，为AI中间层、AI应用开发平台及教育、商业模式等领域提供了新的机遇。他特别指出，数据壁垒对AI性能的制约性日益显现，自监督学习向泛化智能的演进路径成为未来行业的重要发展方向。

倒排索引（反向索引）

zhzjn的博客

09-20

1446

倒排索引（Inverted Index）是搜索引擎和数据库管理系统中常用的一种数据结构，用于快速检索文档集合中的文档。在全文搜索场景中，倒排索引是一种非常高效的手段，因为它能够快速定位到包含特定关键词的所有文档。

[001-02-001].第2节：java开发环境搭建

F-T-er

09-21

1209

dir : 列出当前目录下的文件以及文件夹md: 创建目录rd: 删除目录（需要目录是空的才可以删除也可以这样删除非空目录test：首先删除非空目录下的所有文件：即del test;然后选择yes;rd test;cd : 进入指定目录cd..: 退回到上一级目录cd\: 退回到根目录del : 删除文件;如del *.text;del a.text;exit : 退出 dos 命令行1.第一代语言：机器语言。指令以二进制代码形式存在。2.第二代语言：汇编语言。

Rabbitmq消息队列，安装，使用，三种工作模式

Cao_XinYang的博客

09-22

1225

消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。实现高性能、高可用、可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。目前在生产环境，使用较多的消息队列有ActiveMQ、RabbitMQ、ZeroMQ、Kafka、MetaMQ、RocketMQ等。MQ全称 Message Queue（[kjuː]）（消息队列），是在消息的传输过程中保存消息的容器。多用于分布式系统之间进行通信。（队列是一种容器，用于存放数据的都是容器，存放消息的就是消息队列）

分布式锁的几种方案对比？你了解多少种呢？

无休居士的博客

09-22

1425

如果你需要强一致性和高可靠性，可以选择 Zookeeper；如果需要高性能和低延迟，可以选择 Redis；如果已有数据库基础设施且对性能要求不高，可以选择数据库

RabbitMQ 队列之战：Classic 和 Quorum 的性能洞察

09-25

719

RabbitMQ是一个功能强大且广泛使用的消息代理，它通过处理消息的传输、存储和交付来促进分布式应用程序之间的通信。作为消息代理，RabbitMQ 充当生产者（发送消息的应用程序）和使用者（接收消息的应用程序）之间的中介，即使在复杂的分布式环境中也能确保可靠的消息传递。RabbitMQ 的核心组件之一是队列，消息在其中临时存储，直到被使用。队列在 RabbitMQ 的架构中起着关...

hdfs读写流程和原理

05-23

HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一部分，它是一个可伸缩的分布式文件系统，可以在大型集群中存储和处理超大型数据集。下面是HDFS的读写流程和原理： 1. 写入流程（1）客户端向NameNode请求写入文件，NameNode返回一个DataNode列表，客户端接收到后与DataNode进行数据通信。（2）客户端将数据划分为一个个数据块，并与DataNode建立连接，将数据块写入DataNode。（3）DataNode接收到数据块后，先将数据写入本地磁盘，然后将数据块复制到其他DataNode上，以实现数据备份。（4）客户端在写入完数据后，向NameNode发送文件元数据，即文件名、数据块ID、数据块所在的DataNode等信息，NameNode将这些信息保存在内存中，并更新元数据信息。 2. 读取流程（1）客户端向NameNode请求读取文件，NameNode返回一个DataNode列表和对应的数据块位置信息。（2）客户端与DataNode建立连接，请求数据块，DataNode将数据块返回给客户端。（3）客户端读取完所有数据块后，将数据块组合成完整的文件。 HDFS的主要原理是数据分片和复制。HDFS将大文件划分为多个数据块，每个数据块默认大小为128MB，每个数据块会复制到多个DataNode上，以实现数据备份和容错。NameNode负责管理文件系统的元数据，包括文件名、文件目录、数据块位置等信息，而DataNode则负责数据块的存储和读写。这种分布式存储方式可以实现高可用性和高可靠性，并且可以通过增加DataNode数量来提高存储和读写性能。