Hadoop集群 HDFS读写数据

最新推荐文章于 2022-09-17 22:55:38 发布

置顶 blakewang720

最新推荐文章于 2022-09-17 22:55:38 发布

阅读量394

点赞数

分类专栏： Hadoop集群文章标签： hadoop机器HDFS内部机制

本文链接：https://blog.csdn.net/blakewang720/article/details/89633920

版权

Hadoop集群专栏收录该内容

2 篇文章 0 订阅

订阅专栏

HDFS 写数据流程

第一步：客户端通过Distributed file system的api的open方法；

第二步：open方法发送请求到namenode，获得Block的位置信息（位置信息只有元数据才知道），将block的全部位置信息返还给客户端；

第三步：客户端收到block位置后开始读取，通过FSDataInputStream着api中的read方法读取；

第四步：通过FSDataInputStream着api进行并发的读取各个block，也就是一起读，在读的过程中只读其中的一个副本就可以类，优先读取离同一个机架；

第五步：关闭，并在客户端形成一个统一的文件

HDFS 读数据流程

第一步：客户端通过调用Distributed File System的api的create方法可以取创建一个文件；

第二步：Nameode可以接受到你的文件名是什么，文件大小用户是谁，namenode确定block的数量以及需要存放的datenode；

第三步：客户端开始读数据，通过FSDataInputStream的write方法进行写；

第四步：着方法只将一个block写到databode上，由当前的datanode去创建一个线程，往其他的datanode上按照当前的副本规则取复制其他副本；

第五步：返回一个回馈信息，表示上传完成

第六步：关闭，并汇报给namenode一个上传完毕的信息

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

blakewang720

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

upward

03-23

3130

尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

利用流读取Hadoop集群中文件的信息

qq_36055407的博客

08-03

373

pom中的配置如下： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop集群配置中如何写入和读取数据？

哆啦A梦的博客

10-30

1361

本节和大家继续学习一下有关Hadoop集群性能优化中机架感知配置方面的内容，主要包括写入数据和读出数据两大部分，希望通过本节的介绍大家对Hadoop集群中机架感知配置有一定的认识。 Hadoop集群功能测试以下是分别就配置了机架感知信息和没有配置机架感知信息的hadoopHDFS启动instance进行的数据上传时的测试结果。写入数据当没有配置机架信息时，所有的机器hadoop都默认在

Hadoop之HDFS文件读写流程(超详细!!!!)

weixin_37450409的博客

11-04

2949

HDFS文件写入过程: 详细步骤解析： 1、 client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传； 2、 client请求第一个block该传输到哪些DataNode服务器上； 3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A，B，C； 4...

Hadoop试题

最新发布

11-21

在IT行业中，Hadoop是一个广泛...由于文件" Hadoop技术HDFS数据读写流程共7页.pdf "未提供具体细节，以上内容是对一般HDFS读写流程的概述。实际文档可能包含更深入的技术细节，例如数据校验、流控制、故障恢复等机制。

Hadoop-HDFS详解与HA，完全分布式集群搭建(细到令人发指的教程)

wudidahuanggua的博客

09-17

3369

对HDFS细致到腋毛的讲解，包括HA，完全分布式集群搭建，以及让你打瞌睡的理论知识！

Hadoop（HDFS).docx

04-18

其中，Hadoop分布式文件系统（Hadoop Distributed File System, HDFS）作为Apache Hadoop项目的核心组件之一，旨在提供高吞吐量的数据访问能力，适用于大规模数据集的存储与处理。 **定义**： HDFS是一种专门为存储...

大数据--Hadoop HDFS

08-09

Hadoop集群通常由多台相对便宜的计算机组成，这些计算机通过网络连接在一起，共同完成数据处理任务。每个节点可以同时充当客户端和服务端的角色。集群中的节点可以位于同一地点，例如数据中心内的机架中。 #### ...

通过命令来查看NameNode的状态（是Active还是Standby）

快乐的风男

08-12

2万+

hadoop2.2.0（HA）中HDFS的高可靠指的是可以同时启动2个NameNode。其中一个处于工作状态，另一个处于随时待命状态。这样，当一个NameNode所在的服务器宕机时，可以在数据不丢失的情况下，手工或者自动切换到另一个NameNode提供服务。这些NameNode之间通过共享数据，保证数据的状态一致。多个NameNode之间共享数据，可以通过Nnetwork File Syst...

Java程序读写HDFS报错：No FileSystem for scheme: hdfs

盖世英雄来了

04-10

7306

在使用java程序对hdfs文件系统进行读取的时候，应该确保是一个hadoop job程序否则的话需要导入hadoop-hdfs的依赖，会出现这个问题。在maven中配置hadoop-hdfs即可。说明：虽然普通的java程序运行会报错，但是可以打包成jar文件，然后再hadoop上运行是可以正常执行的。另外可以把读写的代码 conf.set("fs.defaultFS...

Hadoop: HDFS数据流分析

Bob Liu的程序人生

08-30

1263

简介本文主要介绍客户端及与之交互的HDFS、NameNode和DataNode之间的数据流的工作机制。 NameNode和DataNode介绍在了解数据流工作机制之前，我们先来了解一下NameNode和DataNode。 HDFS集群有两类节点以管理者-工作者模式运行，即一个NameNode和多个DataNode。NameNode管理文件系统的命名空间，维护文件系统树及整棵树内

实验三：HDFS实验&读写HDFS文件&学习使用Java读写HDFS文件

WistWill的博客

03-11

6711

一、实验指导 3.1 实验目的 1．会在Linux环境下编写读写HDFS文件的代码； 2．会使用jar命令打包代码； 3．会在master服务器上运行HDFS读写程序； 4．会在Windows上安装Eclipse Hadoop插件； 5．会在Eclipse环境编写读写HDFS文件的代码； 6．会使用Eclipse打包代码； 7．会使用Xftp工具将实验电脑上的文件上传...

【最详细、亲测】Hadoop Stream的最全总结

Mr.Cheng的博客

07-11

4547

【最详细、亲测】Hadoop Stream总结本人在做项目的过程中，想利用Hadoop Stream对现有的python代码进行并行化处理，加速代码运行速度。推荐一个比较好的例子：用python写MapReduce函数——以WordCount为例首先介绍一下Hadoop Stream的优点：让任何语言编写的map，reduce程序能够在Hadoop集群上运行；map/reduce程序只...

Hadoop集群读写性能测试以及MR测试

FlatTiger的博客

04-03

1036

测试HDFS写性能在集群节点上执行如下命令： [hadoop@hadoop01 mapreduce]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB 参数说明： jar包名称

如何远程读取CDH的hadoop上的HDFS数据？

三劫散仙

01-26

1033

[b][color=olive][size=large]以前，散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据，不过当时使用的hadoop是1.2版本的，而且还是apache的，今天hadoop的最新版本已经到hadoop2.6了，而我们服务器上的hadoop是CHD5.3的版本，使用的hadoop是hadoop2.5.0版本的。今天，散仙就以hadoop2.x的版本...

Namenode的Ha机制、HDFS读写数据的过程

02-27

1941

为什么要Namenode HA？前言：在Hadoop 1.x版本，HDFS集群的NameNode一直存在单点故障问题：集群只存在一个NameNode节点，它维护了HDFS所有的元数据信息，当该节点所在服务器宕机或者服务不可用，整个HDFS集群都将处于不可用状态，极大限制了HDFS在生产环境的应用场景。直到Hadoop 2.0版本才提出了高可用 (High Availability, HA) 解...

在不同版本hdfs集群之间转移数据

weixin_34235135的博客

06-05

215

为什么80%的码农都做不了架构师？>>> ...

Hadoop之HDFS文件读写过程

菜如张学清的博客

08-23

9683

HDFS读过程 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = fs.open(file); ...