从NSM到Parquet：存储结构的衍化

最新推荐文章于 2024-07-02 00:25:59 发布

cdai

最新推荐文章于 2024-07-02 00:25:59 发布

阅读量8.1k

点赞数 4

分类专栏：实时计算 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dc_726/article/details/41777661

版权

本文介绍了HDFS中数据存储结构的演变，从传统的NSM（行存储）到DSM（列存储）和PAX（混合型存储），并详细讨论了Parquet列式存储的优势，包括其对Dremel功能的支持和高效的编码压缩技术。

摘要由CSDN通过智能技术生成

为了优化MapReduce及MR之前的各种工具的性能，在Hadoop内建的数据存储格式外，又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile，以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的进化历程。

数据摆放结构

数据摆放结构(data placement structure)，顾名思义，就是数据如何在HDFS中放置和存储的。这种摆放结构对于像Hive这种，HDFS之上的查询工具来说是非常重要的，摆放的结构和策略会直接影响Hive查询引擎的实现和性能。从Hive的角度来看，数据摆放结构就是：怎样从Hive中关系表的逻辑视图映射到HDFS块数据的物理存储。

从更高的层次来看，不仅仅是HDFS这种分布式系统上的应用，data placement对于传统数据库、NoSQL等系统也都是很重要的：

通常来说，有以下三种数据摆放结构：

Ø 水平的行存储结构

Ø 垂直的列存储结构

Ø 混合型的存储结构

下面就依次看一下这三种存储方式的优缺点。

水平的行存储结构

行存储是最传统的存储方式，经典模型是NSM(The N-ary Storage Model)，其优缺点也很明显。优点就是数据加载非常快，因为一行数据都是放在一起的。同时对各种动态workload有很强的适应能力(具体指？)。而缺点

最低0.47元/天解锁文章

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。