Hadoop个人心得笔记之HDFS读写删

最新推荐文章于 2022-03-07 14:57:38 发布

萌新Java程序猿

最新推荐文章于 2022-03-07 14:57:38 发布

阅读量315

点赞数 1

分类专栏： Hadoop 大数据Hadoop

本文链接：https://blog.csdn.net/LiuY521/article/details/94480526

版权

大数据Hadoop 同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

Hadoop

7 篇文章 0 订阅

订阅专栏

HDFS读写删

一、读流程

客户端发起RPC请求到NameNode
NameNode在收到请求之后会先校验这个文件上是否存在。如果存在，那么会将这个文件所对应的Block的存储地址放入一个队列（顺序）中返回给客户端
客户端收到队列之后会从队列中将每一个Block对应的地址来依次取出，从3个地址中取出一个较近的地址来进行读取
读取完一个Block之后，对这个Block进行一次checksum的验证 - 验证这个Block的数据总量是否准确；如果不一致，则说明该Block产生损坏，客户端会通知NameNode，然后再从其他节点上重新读取该Block
如果读完一个Block会读取下一个Block，直到这一次的所有的Block全部读完
客户端在读完这一批地址会向NameNode要下一批的地址
等读完所有的Block，客户端会给NameNode发送消息通知NameNode关闭文件

1.代码实现

	// 读取数据
	@Test
	public void get() throws IOException {
		Configuration conf = new Configuration();
		// 连接HDFS
		// uri：连接地址
		// conf：配置
		FileSystem fs = FileSystem.get(URI.create("hdfs://10.42.60.249:9000"), conf);
		// 打开文件，获取指向文件的输入流
		InputStream in = fs.open(new Path("/VERSION"));
		// 创建一个输出流
		FileOutputStream out = new FileOutputStream("a.txt");
		IOUtils.copyBytes(in, out, conf);
		// 关流
		in.close();
		out.close();
	}

二、写流程

客户端发起RPC请求到NameNode，这个请求包含对文件信息的描述
NameNode收到请求之后，校验这个用户的权限；如果校验通过，则检查这个路径下是否有同名文件，如果没有同名文件，则允许写入
NameNode计算这个文件需要的地址数量，然后会给每一块分配对应的地址，并且将地址放入队列中返回给客户端
客户端在收到地址之后，将数据进行封包(packets)，写入DataNode
在写的时候，从分配的地址中选取一个较近的节点将数据写入。在写完一个Block之后，这个DataNode自动的通过Pipeline（管道，实际上基于NIO的Channel）将这个Block备份到其他节点上构成指定的复本数量
节点之间依次传递ACK信号表示备份成功，在客户端收到ACK之后会继续写下一个Block
客户端写完所有的Block之后会通知NameNode关流，此时这个文件更改为不可写

1.代码实现

// 上传文件
	@Test
	public void put() throws IOException, URISyntaxException, InterruptedException {
		Configuration conf = new Configuration();
		// 在代码中指定的配置优先于xml中的配置
		conf.set("dfs.replication", "1");
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.89.129:9000"), conf, "root");

		// 表示在HDFS上创建指定的文件
		OutputStream out = fs.create(new Path("/a.log"));
		FileInputStream in = new FileInputStream("C:\\gsLauncher.log");
		IOUtils.copyBytes(in, out, conf);
		in.close();
		out.close();

	}

三、删流程

客户端发起RPC请求到NameNode
NameNode收到请求之后，校验这个文件是否存在，如果存在，校验这个客户端是否有删除权限，如果有权限则允许删除。
在通过校验之后，NameNode就会将这个操作记录到edits_inprogress文件中，然后修改内存中的元数据，最后向客户端返回ack表示删除成功。此时数据并没有从HDFS上移除
NameNode等待DataNode的心跳，通过DataNode的心跳信息校验DataNode上是否有要删除的数据，如果有要删除的数据，则NameNode会给对应的DataNode发送指令删除指定的数据，DataNode在接收到指令才会删除。此时数据才真正从HDFS上移除

1.代码实现

@SuppressWarnings("deprecation")
	@Test
	public void delete() throws IOException, InterruptedException {

		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(URI.create("hdfs://192.168.89.129:9000"), conf, "root");
		fs.delete(new Path("/VERSION"));

	}

萌新Java程序猿

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop个人心得笔记之HDFS读写删

HDFS读写删目录 HDFS读写删一、读流程1.代码实现二、写流程1.代码实现三、删流程1.代码实现一、读流程客户端发起RPC请求到NameNode NameNode在收到请求之后会先校验这个文件上是否存...
复制链接

扫一扫