HDFS中文件数据格式

最新推荐文章于 2024-09-17 08:00:00 发布

奔跑的蜗牛AZ

最新推荐文章于 2024-09-17 08:00:00 发布

阅读量6.9k

点赞数 1

分类专栏： HDFS 文章标签：大数据

本文链接：https://blog.csdn.net/weixin_43101364/article/details/96364502

版权

HDFS 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了Hadoop中两种主要的文件格式：面向行和面向列。面向行的格式包括SequenceFile、MapFile和AvroDatafile，适用于需要处理整行数据的场景；面向列的格式如Parquet、RCFile和ORCFile，适用于仅需要访问一行中部分字段的情况。文章还讨论了这些格式的优缺点。

摘要由CSDN通过智能技术生成

Hadoop中的文件格式大致上分为面向行和面向列两类：

面向行：同一行的数据存储在一起，即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式，如果只需要访问行的一小部分数据，亦需要将整行读入内存，推迟序列化一定程度上可以缓解这个问题，但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。

面向列：整个文件被切割为若干列数据，每一列数据一起存储。Parquet , RCFile,ORCFile。面向列的格式使得读取数据时，可以跳过不需要的列，适合于只处于行的一小部分字段的情况。但是这种格式的读写需要更多的内存空间，因为需要缓存行在内存中（为了获取多行中的某一列）。同时不适合流式写入，因为一旦写入失败，当前文件无法恢复，而面向行的数据在写入失败时可以重新同步到最后一个同步点，所以Flume采用的是面向行的存储格式。
在这里插入图片描述
参考网址：
https://blog.csdn.net/javastart/article/details/52739570
hdfs文件格式参考网址：
https://blog.csdn.net/weixin_40235225/article/details/85118333