HDFS的认识和理解

最新推荐文章于 2024-07-01 12:58:04 发布

se7en_q

最新推荐文章于 2024-07-01 12:58:04 发布

阅读量5.1k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/se7en_q/article/details/47374407

版权

HDFS是专为运行在通用硬件上的分布式文件系统，具备高容错性和适合大规模数据集的高吞吐量访问。最初为Apache Nutch搜索引擎项目设计，现属Apache Hadoop Core一部分。本文将探讨如何获取文件系统对象、打开文件及显示文件内容。

摘要由CSDN通过智能技术生成

HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

HDFS是一个的主从结构，一个HDFS集群是由一个名字节点，它是一个管理文件命名空间和调节客户端访问文件的主服务器，当然还有一些数据节点，通常是一个节点一个机器，它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。

内部机制是将一个文件分割成一个或多个块，这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作，如打开，关闭，重命名等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建，删除，和来自名字节点的块复制指令。

1、获取文件系统

2、通过文件系统打开文件

3、将文件内容输出

public static void read(Path path) throws IOException{
    FileSystem hdfs = HdfsUtils.getFilesystem();  //步骤 1
    FSDataInputStream fsDataInputStream =  hdfs.open(path); //步骤 2
    IOUtils.copyBytes(fsDataInputStream, System.out, 4096,false);  //步骤 3
}