Hadoop 文件读流程

qq_30130043

已于 2024-01-25 21:35:46 修改

阅读量398

点赞数

文章标签： hadoop 大数据分布式

于 2018-05-24 15:07:24 首次发布

本文链接：https://blog.csdn.net/qq_30130043/article/details/80434048

版权

1）流程图

2）流程解读

1. 客户端执行命令（或者代码读取），调用的是dfs的FileSystem.open的方法，open传的是文件路径

2. 根据文件路径去NN找，NN把block块和所在位置的信息的映射关系，返回给一个FSDataInoputStream的对象

3. 客户端拿到FSDataInoputStream对象（即block块地址列表），根据最近的网段去循环读取block块

4. 读取完后会有一个check的动作，check完之后会关闭与DN的连接

5. 以130M文件为例，会有2个block，6个副本，分布在不同机器上。

6. 当拿第一个block的机器是有问题的，会去拿第二个副本的机器上拿，依次类推

7. 假如全部副本都损坏，即文件损坏，不能读取了

8. 当所有block都读取完后，会拼装成一个完整的数据流，再转换成文件的内容

9.最后close，关闭输入流

3）客户端操作

对于客户端，操作是透明的，用户体现就是连续的数据流

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_30130043

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【hadoop_读写流程】

weixin_47922102的博客

11-17

854

nn回去检查这个路径的文件是否已经存在，是否有权限能够创建这个文件，2.Client 不一定在DN节点，随机选择一个DN。3.HDFS 副本放置策略【面试，生产都会用到】此时，任然没有写数据，不关联任何的block块。hadoop 、hive hadoop用户。放置在第一个副本的不同机架上的某个DN节点。杀死进程：kill -9 pid 暴力杀死。hive 创建一个hive用户。生产上读写操作，选择DN节点进行读取。1.放置在client上传的DN节点。杀死进程： kill id;

Hadoop（三）读写流程

weixin_44819454的博客

05-30

1126

Remote Procedure Call RPC——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 RPC采用客户机(client)/服务器(server)模式。请求程序就是一个客户机，而服务提供程序就是一个服务器。首先，客户机调用进程发送一个有进程参数的调用信息到服务进

1 条评论您还未登录，请先登录后发表或查看评论

hadoop 读写文件流程详解

09-19

在hadoop中，有三大法宝——HDFS，MapReduce，Hbase，但是无论是MapReduce，Hbase还是hadoop中的其他组件如：Hive等他们要处理的数据还是处理完了的数据都是存储在HDFS中。可见HDFS可以说是hadoop存储的基础和核心，因此对HDFS的文件读写操作显得十分重要。

hadoop文件的读写流程

浅汐

10-14

2404

1.副本放置策略第一副本：放置在上传文件的DataNode上;如果是集群外提交，则随机挑选一台磁盘不太慢、CPU不太忙的节点上; 第二副本：放置在于第一个副本不同的机架的节点上; 第三副本：与第二个副本相同机架的不同节点上; 如果还有更多的副本：随机放在节点中; 2.文件的写流程 1.客户端会调用DistributedFileSystem对象的create(filePath)

hadoop的hdfs读写文件流程

qq443967620的博客

02-14

229

一读取文件流程打开分布式文件-调用分布式文件 DistributedFileSystem.open()方法从Namenode获得Datanode地址-DistributedFileSystem 使用RPC调用Namenode,Namenode返回存有该副本的Datanode地址,DistributedFileSystem返回一个输入流FSDatainputstream对象,该对象封存了输入...

hadoop之文件读写流程

吴成伟的博客

04-04

913

写文件流程 1.调用客户端的对象DistributedFileSystem的create方法 2.DistributedFileSystem会发起对namenode的一个RPC连接,请求创建一个文件,不包含关于block块的请求.namenode会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限.如果检查通过,namenode会创建一个文件(在edits log中,同时更新...

Hadoop-HDFS读流程（从输入命令到回显）

最新发布

lu070828的博客

01-11

1456

因此需要知道这个文件对应的了多少块（包括副本）都在什么哪些节点上以及节点的哪些目录中（那就需要请求NameNode），通过机架感知找到离Client节点最近的文件对应的每个块，然后依次发起读请求（请求DataNode），最后合成结果文件即可。FSNamesystem处已经写了块信息列表是按照和客户端的距离排好序的，这里剔除了坏块DataNode信息和需要忽略的DataNode，然后取列表中的最后一个DataNode来做为最终的DataNode，如果找不到就报告块丢失）

Hadoop（四）HDFS 读写流程

qq_41620635的博客

02-17

2085

HDFS 的读写流程 HDFS 将文件切割为默认大小的块（block）存放在不同的 DataNode上；上传文件和读取文件时 HDFS 重要的流程； HDFS 的写文件流程图文解释： 1、Client 连接 HDFS ，发送上传文件的请求； 2、NameNode 响应请求，对文件进行校验；校验成功后返回要存放文件的 block 所对应的 DataNode 的信息列表；列如： block01：dataNode1、dataNode2 block02：da

Hadoop：文件操作过程之HDFS打开文件、读流程（部分源码）

Jodness' Blogs

04-23

1764

DistributedFileSystem和DFSClient Hadoop可以支持不止一种的文件系统，比如对宿主机的文件系统RawLocalSystem、运行在Amazon平台上的S3FileSystem等，所以Hadoop定义了一个FileSystem的抽象类。 DistributedFileSystem继承于FileSystem，是一种具体的文件系统即HDFS；hadoop中还定义了一个...

HDFS的数据流读写数据（面试开发重点）

weixin_30914981的博客

08-15

176

1HDFS写数据流程 1.1剖析文件写入 HDFS写数据流程，如图所示 1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 Block上传到哪几个DataNode服务器上。 4）NameNode返回3个Dat...

IDL读取HDF数据方法步骤介绍及源码

03-19

详细介绍了HDF文件的结构特点，并使用IDL语言进行数据读取、显示和处理HDF文件，步骤详细，实例说明

Hadoop（5）HDFS的读流程和写流程

夏季版

06-05

3758

1、写流程如上：client表示客户端，NameNode为主，DataNode为从，要存储的数据为Data 1、客户端向NameNode发起请求，需要存储数据Data 2、因为NameNode中是记录了所有DataNode的相关信息的，而数据最终要保存的地方就是DataNode，所以NameNode会返回可用的DataNode的信息给客户端 3、将Data分为1和2...

hadoop读取文件流程分析

liu812769634的博客

11-08

1493

在读取HDFS上的文件时，Client、NameNode以及DataNode都会相互关联。按照一定的顺序来实现读取这一过程，读取过程如下图所示：　　通过上图，读取HDFS上的文件的流程可以清晰的知道，Client通过实例打开文件，找到HDFS集群的具体信息（我们需要操作的是 ClusterA，还是ClusterB，需要让Client端知道），这里会创建一个输入流，这个输入流是连接DataNode的桥

hadoop 读取文本内容

05-27

1851

Configuration conf = context.getConfiguration(); FileSystem fs = FileSystem.get(conf); // FSDataInputStream fin = fs.open(new Path(conf.get("emotionPath"))); FSDataInputStream fin

Hadoop的读和写

笨蛋一小枚

05-15

4040

Mapreduce处理原则：将输入数据分割成块（称输入分片），在各台计算机上并行处理。HDFS按块存储文件，并分布在多台计算机上，如果每个分片/块都由它所驻留的机器处理，就实现了并行。HDFS再在多个节点上复制数据块，MapReduce可以选择任意一个包含分片/数据库副本的节点。 InputFormat Hadoop分割与读取输入文件的方式，被定义在

titan-hadoop “Too many open files”修正

csdn666666666的博客

09-28

148

环境: CentOS 5.7, Titan-0.5.0-Hadoop2 在titan-hadoop启动gremlin.sh运行图遍历时经常出现"too many open files"的报错，发现最终的问题超出系统...

Hadoop MapReduce时Too many open files解决办法

厚积而薄发

05-17

5329

在HIVE执行MR的时候，报如下错误 java.io.IOException: Call to server/10.64.49.21:9001 failed on local exception: java.io.IOException: Too many open files at org.apache.hadoop.ipc.Client.wrapException(Clien

HDFS读文件流程概述

weixin_39935887的博客

02-14

443

我们之前讲过FSDataInputStream类中的read函数(总共有四篇，网址分别是read(1)、read(2)、read(3)、read(4))，这些read函数会调用DFSInputStream类中的相应的read函数，在DFSInputStream类的read函数分别有： //第一个read函数 public synchronized int read() //第二个read函数 ...

Apache Hadoop是什么

z278718149的专栏

03-22

1122

Apache Hadoop是一个高效的、可扩展的、分布式计算的开源项目。 Apache Hadoop库是一个框架，这个框架允许通过使用简单编程模型的大数据集和计算集群的分布式处理。它的设计规模从单一服务器到数千机器，每一个都提供本地计算和存储。而不是依靠硬件提供高可用行。它的库本身是用来检测和处理应用层的错误，因此将在计算集群高可用的服务，每一个都可能失败。 Apache Hadoop包括以下

Hadoop HDFS读文件流程详解

"了解Hadoop的HDFS读文件流程及其发展历程" 在分布式计算领域，Hadoop是一个重要的开源框架，尤其在处理大数据方面具有显著优势。Hadoop最初受到Google的MapReduce和Google文件系统(GFS)的启发，由Apache基金会开发...