HDFS的文件存储格式以及HDFS异构存储和存储策略

最新推荐文章于 2025-04-24 21:59:50 发布

不知落叶何时落

最新推荐文章于 2025-04-24 21:59:50 发布

阅读量7.4k

点赞数 7

本文链接：https://blog.csdn.net/m0_53341445/article/details/127230802

版权

大数据同时被 3 个专栏收录

17 篇文章

订阅专栏

Hadoop

16 篇文章

订阅专栏

hdfs

5 篇文章

订阅专栏

本文介绍了HDFS中的各种文件存储格式，包括TextFile、SequenceFile、AvroFile、RCFile、ORCFile和ParquetFile等，并详细阐述了这些格式的特点及适用场景。此外，还讨论了HDFS中的异构存储策略，包括热、温、冷和冻数据的存储管理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS文件存储格式

丰富的存储格式

行式存储

优点: 写入是一次性完成的，消耗的时间比列式存储少，并且能够保证数据的完整性

缺点: 数据读取过程中会产生冗余数据，如果只有少量数据，此影响可以忽略，数量较大可能会影响到数据的处理效率。

行式存储适合插入不适合查询

列式存储

优点：在读取过程中不会产生冗余数据，这对数据完整性要求不高的大数据领域极其重要。

缺点：写入效率、保证数据的完整性上都不如行式存储

列式存储适合查询不适合插入

Text File

文本格式是Hadoop生态系统内部和外部的最常见的格式，通常按照行存储，以回车换行符区分不同的行数据

优点：易读性好。至少是人能读懂的

缺点： 解析开销一般比二进制格式的开销大，特别是XML和JSON

最大的特点： 不支持块级别压缩，因此在进行压缩是会带来较高的读取成本

注意：Text File 不仅仅是指的是TXT文件，还包括CSV、JSON、XML等

Sequence File

Sequence FIle，每条数据记录都是以Key、Value键值对进行序列化存储（二进制格式）
序列化文件与文本文件相比更加紧凑，且支持record、block块级压缩。压缩的同时支持文件切分
通常把Sequence File 作为中间数据存储格式，例如：将大量小文件合并放入到Sequence File文件中。

record

record 就是一个kv键值对，其中数据保存在value中，可以选择是否针对value进行压缩

block

block就是多个record的集合，block级别的压缩性能更好

Avro File

Avro是与语言无关的序列化系统，由hadoop 之父进行开发
Avro是基于行的存储格式，他在每个文件中都包括Json格式的schema定义，从而提高了互操作性并允许schema的变法（删除列、添加行）。除了支持可切分以外，还支持快压缩。
Avro是一种自描述格式，他将数据的schema直接编码存储在文件中，可以用来存储复杂结构的数据。
Avro直接将一行数据序列化在一个block中
适合于大量频繁写入宽表数据（字段多、列多）的场景，其序列化、反序列化很快

RC File

Hive Record Columnar File(记录列文件)，这中类型的文件首先将数据按行划分为行组，然会在行组内部将数据存储在列中。很适合在数仓中执行分析，且支持压缩、切分。
不支持schema拓展，如果要添加新的列，则必须重写文件，这会降低操作效率。

ORC File

ORC File提供了比RC File更有效的文件格式。他在内部将数据划分为默认大小为250MB的Stripe，每个条带均包括索引、数据和页脚，索引存储每列的最大值和最小值以及列中每一行的位置
他并不是一个单纯的列存储格式，仍然是首先根据Stripe分割整个表，在每一个Stripe内进行案列存储
ORC有多种文件压缩方式，并且有着很高的压缩比，文件时可切分的。
ORC 文件是以二进制方式存储的，所以是不可以直接读取的。

Parquet File

Parquet File是面向分析性业务的列式存储方式。
Parquet File 是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的
支持块压缩

Parquet File 文件结构

Parquet File 的存储模型主要由行组、列块、页组成。
在水平方向上将数据划分为行组，默认行组大小与HDFS Block块大小对齐，Parquet保证一个行组会被一个Mapper处理。
行组中的每一列保存在每一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩方式。
Parquet 是也是存储方式，每一个列块包含多个页，一个页是最小的编码的单位，同一块列的不同页可以使用不同的编码方式。
文件的首部都是该文件的Magic Code，用于校验它是否是一个Parquet文件

总结

选择文件存储格式不能够只追求某一项指标性能
更流行的是混合存储格式：兼容行式和列式
大数据中 ORC、Parquet、Avro使用的比较多

新一代的存储格式： Arrow

Arrow 是一个跨语言平台，是一种列式内存数据结构，主要用于构建数据系统
Arrow 促进了许多组件之间的通信
极大缩减了通信时候序列化、反序列化所浪费的时间

不适用Arrow：

使用Arrow：

在内存中直接查找，大大提升了效率

Arrow如何提升数据移动性能

利用Arrow 作为内存中数据表示的两个过程可以将数据从一种方法重定向到另一个方法，而无需序列化或者反序列化。
无需进行反序列化，可以直接从启用了Arrow的数据存储系统中接收Arrow数据
Arrow设置针对嵌套结构化数据的分析性能进行了优化

文件压缩格式

压缩算法优劣势指标

压缩比

原先占100份的空间的东西经压缩后变成了20份空间，那么压缩比就是5，显然压缩比越高越好
压缩/解压缩吞吐量（时间）
- 每秒能压缩或解压缩多少MB的数据，吞吐量也是越高越好
压缩算法实现是否简单、开源
是否为无损压缩、回复效果是否够好
压缩后的文件是否支持split（切分）

Hadoop支持的压缩算法

Hadoop对文件压缩均实现org.apache.hadoop.io.compress.CompressionCodec接口，所有的实现类都在org.apache.hadoop.io.compress包下。

Hadoop支持的压缩对比

压缩格式	工具	算法	文件扩展名	是否可切分	对应的编码解码器
DEFLATE	无	DEFLATE	.deflate	否	org.apache.hadoop.io.compress.DefaultCodec
Gzip	gzip	gzip	.gz	否	org.apache.hadoop.io.compress.GzipCodec
bzip2	bzip2	bzip2	.bz2	是	org.apache.hadoop.io.compress.BZip2Codec
LZO	lzop	LZO	.lzo	是（切分点索引）	com.hadoop.compression.lzo.LzopCodec
LZ4	无	LZ4	.lz4	否	org.apache.hadoop.io.compress.Lz4Codec
Snappy	无	Snappy	.snappy	否	org.apache.hadoop.io.compress.SnappyCodec

压缩比：

压缩、解压时间

注意

压缩的合理使用可以提高HDFS的内存效率

压缩解压意味着CPU、内存需要参与编码解码

选择压缩算法时不能够一味的追求某一指标的极致，要综合考虑性价比比较高的

文件的压缩解压程序或者工序需要对数据进行处理，大数据相关处理软件都支持直接设置

HDFS 异构存储和存储策略

HDFS异构存储类型

冷、热、暖、冻数据

热数据：新传入的数据被大量地使用，这样的数据被标记成热数据。

暖数据：热数据随着时间的推移，访问次数在慢慢下滑，这时候就是一个暖数据

冷数据：暖数据的使用频率再次降低就是冷数据

冻数据：使用频率非常低，基本不使用甚至不用，则成为冻数据。

在Hadoop2.5及其以上就开始支持存储策略，在该策略下，不仅可以在默认的传统的磁盘上存储HDFS数据，还可以在SSD上存储数据

什么是异构存储

异构存储是Hadoop2.6.0版本以后出现的新特征，可以根据哥哥存储介质读写特征不同进行选择。

例如冷热数据的存储，对冷数据采用容量大但读写性能不高的存储介质如机器硬盘，热数据采用SSD进行存储

在读写效率上性能较大，异构特性允许我们对不同文件选择不同的存储介质进行保存，以实现机器性能的最大化

HDFS定义的四种异构存储类型

RAM_DISK(内存)

SSD（固态硬盘）

DISK（机器硬盘）默认使用

ARCHIVE（高密度存储介质，存储档案历史数据）

那么如何让HDFS知道集群中的数据存储目录是哪种类型的介质？

配置属性时主动声明，HDFS没有自动检测的能力

参数配置

dfs:datanode.data.dir=[SSD]file:///grid/dn/ssd0

如果目录前没有嗲上［SSD］ [DISK] [ARCHIVE] [RAM_DISK]这四种类型中的任意一个，则默认为DISK

由于在本地我并没有生命该磁盘的类型，进行查看：

显然是DISK

HDFS 块存储类型选择策略

块存储指的是对HDFS文件的数据块副本存储

对于数据的存储介质，HDFS的BlockStoragePolicySuite类内部定义了6中策略

Hot（默认策略）、 COLD、 WARM、 ALL_SSD 、 ONE_SSD、 LAZY_PERSIST策略

Hot：用于存储和计算，流行且仍用于处理的数据将保留在此策略中。所有的副本都保存在DISK中

COLD：仅适用于计算量有限的存储。不再使用的数据或需要归档的数据从热数据移动到冷数据。所有的副本都存储在APCHIVE中

WARM：部分热和部分冷，热时，其某些副本存储在DISK中，其余副本存储在ARCHIVE中

ALL_SSD: 所有副本都存储在SSD中

One_SSD:用于将副本之一存储在SSD中，其余副本存储在DISK中

Lazy_Persist: 用于在内存中写入具有单个副本的块，首先将副本写入到RAM_DISK，然后将其延迟保存在DISK中

速度快慢：

规划目录	用途
/data/hot	热阶段数据
/data/warm	温阶段数据
/data/cold	冷阶段数据

LAZY PERSIST策略介绍

HDFS支持把数据写入有DataNodde管理的堆外内存
DataNode异步的将内存中数据刷新到磁盘，从而减少代价较高的的磁盘IO操作，这种写入称为Lazy Persist写入
该特性在2.6.0开始被支持

执行流程

对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略
客户端进程向NameNode发起创建/写文件请求
客户端请求到具体的DataNode后DataNode会把这些数据块写入到RAM内存中，同时启动异步线程服务将内存数据持久化写入到磁盘上
内存的异步持久化存储是指数据不是马上罗盘，而是懒惰的、延时的进行处理。

LAZY_PERSIST设置使用

虚拟内存的配置

使用的时tmpfs，tmpfs一种基于内存的文件系统。最好的RAM文件系统。

mount -t tmpfs -o size=200m tmpfs /mnt/tmpfs/

通过指令查看是否挂在成功：

df -h

显然挂载成功

内存存储截至设置

将机器中已经完成好的虚拟内存盘配置到dfs.datanode.data.dir中，其次还需要带上RAM_DISK标签

配置文件如下：

<property>
 <name>dfs.datanode.data.dir</name>
 <value>[DISK]file://${hadoop.tmp.dir}/dfs/data,[ARCHIVE]file://${hadoop.tmp.dir}/dfs/data/archive,[RAM_DISK]/mnt/tmpfs</value>
</property>

随后通过rsync进行分发

然后重启hadoop 或者hdfs

查看是否能够识别：

显然识别成功

参数设置优化

dfs.storage.policy.enabled

是否开启异构存储，默认为true，所以可以不进行设置

dfs.datanode.max.locked.memory

用于在数据节点上的内存中缓存块副本的内存量。默认情况下此参数设置为0，这将禁用内存中缓存。内存之国小会导致内存中的总的可存储的数据块变小，但如果超过DataNode能承受的最大内存大小的话，部分内存块会被直接移出

<!-- 用于在数据节点上的内存中缓存块副本的内存量（以字节为单位）。默认情况下，此参数设置为0，这将禁用	内存中缓存。内存值过小会导致内存中的总的可存储的数据块变少，但如果超过 DataNode 能承受的最大内存大小的话，部分内存块会被直接移出 。byte 类型 -->
<property>
	<name>dfs.datanode.max.locked.memory</name>
	<value>65536</value>
</property>