HDFS的读写流程(详解)

本文详细介绍了HDFS(Hadoop Distributed File System)的工作原理,包括其优缺点、写流程和读流程。HDFS适用于大数据处理,但存在低延迟访问支持不足、小文件处理效率低等问题。在写流程中,数据通过Pipeline传输,副本策略确保数据可靠性。读流程则涉及客户端从NameNode获取文件block位置,根据距离优先原则选择DataNode进行数据读取。
摘要由CSDN通过智能技术生成

概述

HDFS(Hadoop Distributed File System)是GFS的开源实现。

HDFS的优缺点

1、优点

  • 因为有多个副本,可以保证数据可靠,容错性高
  • 计算向数据移动,适用于批处理
  • 适合大数据处理,GB、TB、PB级数据,百万以上的文件,十万以上的节点
  • 可以构建在廉价机器上,通过多副本提高可靠性

2、缺点

  • 不支持低延迟的数据访问,无法再毫秒之内返回结果
  • 小文件对于HDFS是致命的,会占用大量的NameNode的存储空间
  • 并发写入和文件随机修改困难,因为它一个文件在同一时刻只能有一个写入者,而且只支持append

HDFS的写流程

在这里插入图片描述
写流程如下:
  1、客户端访问NameNode,NameNode检查路径和权限,如果路径中有与要上传的文件重名的文件就不能上传了,不能覆盖,如果没有才创建,创建名为file.copying的临时文件;
  2、NameNode触发副本放置策略,如果客户端在集群内的某一台机器,那么副本第一块放置在该服务器上,然后再另外挑两台服务器;如果在集群外,namenode会根据策略先找一个机架选出一个da

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值