HDFS数据块的认知

最新推荐文章于 2023-09-16 15:29:22 发布

大数据面试指南

最新推荐文章于 2023-09-16 15:29:22 发布

阅读量121

点赞数

分类专栏：大数据 HDFS hadoop 文章标签：大数据 hdfs 面试

本文链接：https://blog.csdn.net/czxylzl/article/details/114152409

版权

hadoop 同时被 3 个专栏收录

46 篇文章 0 订阅

订阅专栏

大数据

37 篇文章 1 订阅

订阅专栏

HDFS

14 篇文章 0 订阅

订阅专栏

在这里插入图片描述

数据块

  hdfs将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的统一大小和形式进行存储，方便我们的分布式文件系统对文件的管理

基本概念

所有的文件都是以block块的方式存放在HDFS文件系统当中，在Hadoop1当中，文件的block块默认大小是64M，Hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过hdfs-site.xml当中的配置文件（dfs.block.size）进行指定。

一个文件100M，上传到HDFS占用几个块？答：1个


一个文件156Mb，一个块128M，剩余的28M怎么办？
      事实上，128只是个数字，数据超过128M，便进行切分，如果没有超过128M，就不用切分，有多少算多少，不足128M的也是一个快。这个快的大小就是100M，没有剩余28M这个概念。

抽象成数据块的好处
1. 一个文件有可能大于集群中任意一个磁盘
20T/128 = xxx块，这些block块属于一个文件
2. 使用块抽象而不是文件,可以简化存储子系统。
3.块非常适合用于数据备份进而提供数据容错能力和可用性
块缓存
通常DataNode从磁盘中读取块，但对于访问频繁的文件，其对应的块可能被显示的缓存在DataNode的内存中，以堆外块缓存的形式存在。默认情况下，一个块仅缓存在一个DataNode的内存中，当然可以针对每个文件配置DataNode的数量。作业调度器通过在缓存块的DataNode上运行任务，可以利用块缓存的优势提高读操作的性能。