Apache parquet介绍

什么是parquet

parquet是为了数据的高性能存储和索取而生的列式数据存储格式,同时parquet提供了高效的数据压缩和编码方案来增强处理复杂数据块的性能。

Reference:

parquet特性

  • 开源免费
  • 无语言论数据格式
  • 基于列的数据格式:节省空间且提高了分析查询的速度
  • 高性能数据压缩和解压缩
  • 支持复杂的数据类型和高级的嵌套数据类型

parquet带来的好处

  • 存储任何类型的大数据(结构化数据、图片、视频、文档)
  • 为不同数据类型的列提供高性能的数据压缩和灵活的编码方案
  • 增加数据的吞吐量且提升了查询的性能(通过类似于数据跳跃的技术,使得查询过程不需要读取所有数据)

parquet使用record-shredding(记录粉碎)和assembly algorithm(组装算法)实现,并且包含了复杂的数据结构用来存储数据。Parquet 已针对批量处理复杂数据进行了优化,并具有用于高效数据压缩和编码类型的不同方式。这种方法最适合那些需要从大表中读取某些列的查询。Parquet 只能读取所需的列,因此大大减少了 IO。

列格式的数据存储优势

  • 相比于行式存储结构,列式存储在聚合查询上面花费更少的时间,这种存储方式已转化为节省硬件并最大限度地减少访问数据的延迟
  • parquet由分组(group)组成,所以其支持高级嵌套数据结构,Parquet 数据文件的布局针对处理大量数据的查询进行了优化,每个文件的数据量在千兆字节范围内。
  • parquet提供了灵活的压缩选项和高效的编码方式,由于每列的数据类型非常相似,因此每列的压缩很简单(这种方式甚至会使查询更快),其次,不同的数据也可以使用不同的压缩方式。
  • parquet最适用于交互式和无服务技术。

parquet和csv之间区别的比较

csv是大家再熟悉不过的存储数据的格式了。

Parquet 已帮助其用户将大型数据集的存储需求减少了至少三分之一,此外,其大大提高了数据的浏览和反序列化时间,从而降低了总成本。
下表展示了将数据由csv转成parquet所节省的花销:

DatasetSize on Amazon S3Query Run TimeData ScannedCost
Data stored as CSV files1 TB236 seconds1.15 TB$5.75
Data stored in Apache Parquet Format130 GB6.78 seconds2.51 GB$0.01
Savings87% less when using Parquet34x faster99% less data scanned99.7% savings
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值