从NSM到Parquet:存储结构的衍化

本文介绍了HDFS中数据存储结构的演变,从传统的NSM(行存储)到DSM(列存储)和PAX(混合型存储),并详细讨论了Parquet列式存储的优势,包括其对Dremel功能的支持和高效的编码压缩技术。
摘要由CSDN通过智能技术生成

为了优化MapReduceMR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)Parquet等。今天就来一起学习一下HDFS中数据存储的进化历程。

数据摆放结构

数据摆放结构(data placement structure),顾名思义,就是数据如何在HDFS中放置和存储的。这种摆放结构对于像Hive这种,HDFS之上的查询工具来说是非常重要的,摆放的结构和策略会直接影响Hive查询引擎的实现和性能。从Hive的角度来看,数据摆放结构就是:怎样从Hive中关系表的逻辑视图映射到HDFS块数据的物理存储


从更高的层次来看,不仅仅是HDFS这种分布式系统上的应用,data placement对于传统数据库、NoSQL等系统也都是很重要的:


通常来说,有以下三种数据摆放结构:

Ø  水平的行存储结构

Ø  垂直的列存储结构

Ø  混合型的存储结构

下面就依次看一下这三种存储方式的优缺点。

水平的行存储结构

行存储是最传统的存储方式,经典模型是NSM(The N-ary Storage Model),其优缺点也很明显。优点就是数据加载非常快,因为一行数据都是放在一起的。同时对各种动态workload有很强的适应能力(具体指?)。而缺点

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值