Hadoop-2

最新推荐文章于 2022-12-27 11:10:34 发布

Denovo丶

最新推荐文章于 2022-12-27 11:10:34 发布

阅读量339

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/qq_39210208/article/details/87887778

版权

一致性模型

HDFS某些地方为了性能可能会不符合POSIX（是的，你没有看错，POSIX不仅仅只适用于linux/unix，Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取），所以它看起来可能与你所期望的不同，要注意。
　　创建了一个文件以后，它是可以在命名空间（namespace）中可以看到的：
　　　　Path p = new Path(“p”);
　　　　fs.create§;
　　　　assertThat(fs.exists§, is(true));
　　但是任何向此文件中写入的数据并不能保证是可见的，即使你flush了已经写入的数据，此文件的长度可能仍然为零：
　　　　Path p = new Path(“p”);
　　　　OutputStream out = fs.create§;
　　　　out.write(“content”.getBytes(“UTF-8”));
　　　　out.flush();
　　　　assertThat(fs.getFileStatus§.getLen(), is(0L));
　　这是因为，在Hadoop中，只有满一个block数据量的数据被写入文件后，此文件中的内容才是可见的（即这些数据会被写入到硬盘中去），所以当前正在写的block中的内容总是不可见的。
　　Hadoop提供了一种强制使buffer中的内容冲洗到datanode的方法，那就是FSDataOutputStream的sync()方法。调用了sync()方法后，Hadoop保证所有已经被写入的数据都被冲洗到了管道线中的datanode中，并且对所有读者都可见了：
　　　　Path p = new Path(“p”);
　　　　FSDataOutputStream out = fs.create§;
　　　　out.write(“content”.getBytes(“UTF-8”));
　　　　out.flush();
　　　　out.sync();
　　　　assertThat(fs.getFileStatus§.getLen(), is(((long) “content”.length())));
　　这个方法就像POSIX中的fsync系统调用（它冲洗给定文件描述符中的所有缓冲数据到磁盘中）。例如，使用java API写一个本地文件，我们可以保证在调用flush()和同步化后可以看到已写入的内容：
　　　　FileOutputStream out = new FileOutputStream(localFile);
　　　　out.write(“content”.getBytes(“UTF-8”));
　　　　out.flush(); // flush to operating system
　　　　out.getFD().sync(); // sync to disk（getFD()返回与该流所对应的文件描述符）
　　　　assertThat(localFile.length(), is(((long) “content”.length())));
　　在HDFS中关闭一个流隐式的调用了sync()方法：
　　　　Path p = new Path(“p”);
　　　　OutputStream out = fs.create§;
　　　　out.write(“content”.getBytes(“UTF-8”));
　　　　out.close();
　　　　assertThat(fs.getFileStatus§.getLen(), is(((long) “content”.length())));

由于Hadoop中的一致性模型限制，如果我们不调用sync()方法的话，我们很可能会丢失多大一个block的数据。这是难以接受的，所以我们应该使用sync()方法来确保数据已经写入磁盘。但频繁调用sync()方法也是不好的，因为会造成很多额外开销。我们可以再写入一定量数据后调用sync()方法一次，至于这个具体的数据量大小就要根据你的应用程序而定了，在不影响你的应用程序的性能的情况下，这个数据量应越大越好。

**以上转自：**http://www.cnblogs.com/beanmoon/archive/2012/12/17/2821548.html

NameNode工作机制

1）

最低0.47元/天解锁文章

Denovo丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop-2

一致性模型HDFS某些地方为了性能可能会不符合POSIX（是的，你没有看错，POSIX不仅仅只适用于linux/unix，Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取），所以它看起来可能与你所期望的不同，要注意。　　创建了一个文件以后，它是可以在命名空间（namespace）中可以看到的：　　　　Path p = new Path(“p”);　　　　fs.create§...
复制链接

扫一扫