HDFS概念整理(一)

本文介绍了分布式文件系统的基本概念,重点讲解了HDFS的组成部分,包括数据块、Namenode、Datanode以及客户端的角色。阐述了数据块的重要性,Namenode的元数据管理和高可用性方案,如联邦HDFS、容错性和故障转移控制器。
摘要由CSDN通过智能技术生成

什么是分布式文件系统?

当数据集大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上。

分布式文件系统:管理网络中跨平台计算机存储的文件系统。

常见的分布式文件系统有:GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。

HDFS的几个概念

HDFS以流式(来一点,处理一点)数据访问模式来存储超大文件(具有几百 MB, 几百 GB甚至几百TB大小的文件)。

数据块(Block)

磁盘有磁盘块(一般为512字节),文件有文件系统块(一般为磁盘块的整数倍,几千字节),HDFS同样也有块的概念-数据块

数据块是什么?
  1. 基本存储单位,一般大小为64M,很多情况下也使用128M。
    配置大的块主要是因为:
    a. 最小化寻址开销,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间。
    b. 减少管理块的数据开销,每个块都需要在NameNode上有对应的记录。
    c. 对数据块进行读写,减少建立网络的连接成本。

    这个大小也不会设置的过大:
    因为MapReduce中的map任务通常一次只处理一个块中的数据。如果任务数太少(小于集群中的节点数量),作业的运行速度就会比较慢。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值