Hadoop内核分析之Hadoop文件存储细节

最新推荐文章于 2021-05-20 22:59:10 发布

VIP文章 fp196391196391

最新推荐文章于 2021-05-20 22:59:10 发布

阅读量1.7k

点赞数

分类专栏：存储 hadoop 文章标签： hadoop 存储 mapreduce dst 分布式存储 output

本文链接：https://blog.csdn.net/fp196391196391/article/details/7629677

版权

众所周知，我们需要hadoop来分布式存储我们的数据，提高并发和吞吐量，造就了Mapreduce框架的易用性。那对于整个这个过程来说，最开始需要我们认识到的是文件是如何存储在hadoop系统上的。

Hadoop可以分为三个部分，Client端，namenode端和datanode端。他们之间的协作做成了这个庞大的分布式文件系统。文件从客户端这个接口，进入系统，由客户端和namenode通信，使用反射机制，告知Client文件所需要存储的datanode列表，然后就可以进行传输了，当然，我们在这里屏蔽了所有hadoop错误处理的过程，即便这是hadoop的最大的优势之一。

大体的过程知道了，那么下面我们可以深入源码，来看看具体的实现。

首先在Client端，假设你写了一个mapreduce程序就是用来存储一个文件的，代码如下：

	 	String localSrc = "/root/Desktop/examp.c";
		String dst = "/fangpei/examp.c";
		InputStream in = new BufferedInputStream(new FileInputStream(localSrc));
		Configuration conf = new Configuration();
		URI uri = URI.create(dst);
		FileSystem fs = FileSystem.get(uri, conf);
		OutputStream out = fs.create

最低0.47元/天解锁文章

fp196391196391

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop内核分析之Hadoop文件存储细节

众所周知，我们需要hadoop来分布式存储我们的数据，提高并发和吞吐量，造就了Mapreduce框架的易用性。那对于整个这个过程来说，最开始需要我们认识到的是文件是如何存储在hadoop系统上的。 Hadoop可以分为三个部分，Client端，namenode端和datanode端。他们之间的协作做成了这个庞大的分布式文件系统。文件从客户端这个接口，进入系统，由客户端和nam
复制链接

扫一扫