Hadoop学习-5-HDFS文件存储格式

最新推荐文章于 2023-08-17 14:32:10 发布

数说兴趣

最新推荐文章于 2023-08-17 14:32:10 发布

阅读量995

点赞数

分类专栏： Hadoop 文章标签： hadoop hdfs 学习

本文链接：https://blog.csdn.net/DMF363/article/details/128222177

版权

6 篇文章 0 订阅

订阅专栏

text文本
- 纯文本格式，行式存储
- 不支持块级别压缩
- 易读性好
sequence file
- 序列化文件，以key、value键值对进行序列化存储
- 支持record、block级别压缩，支持文件切分
- 通常作为中间数据存储格式
avro file
- 基于行存储，文件中包含json格式的schema定义
- 支持切分、块压缩
- 适合于大量频繁写入的宽表数据，序列化和反序列化的性能很好
RCFile
- 支持压缩、切分
- 行、列存储结合
- 不支持schema扩展，如果需要增加新列，需重写文件
ORCFile
- 支持多种压缩方式，可切分
- 支持schema扩展
- 以二进制方式存储，不可以直接读取
parquet File
- 面向分析型业务的列式存储
- 由行组、列块、页组成，支持块压缩
- 以二进制形式存储
arrow
- 跨语言格式，是一种列式内存数据结构
- 主要用于构建数据系统
- 促进多组件之间的通信，缩减了通信时序列化、反序列化的时间

需要修改文件存储路径，设置存储介质类型

<property>
  <name>Dfs.datanode.data.dir</name>
  <value>[SSD]file:///path</value>
</property>
<!--SSD, DISK, ARCHIVE, RAM_DISK-->