待续 总结 - parquet 与 avro

  • paruet列存文件结构

        可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量

        压缩编码可以降低磁盘存储空间

        只读取需要的列,支持向量运算,能够获取更好的扫描性能

         Schema :Parquet文件尾部存储了文件的元数据信息和统计信息,自描述的,方便解析

                Parquet列式存储带来的性能上的提高在业内已经得到了充分的认可,特别是当你们的表非常宽(column非常多)的时候,Parquet无论在资源利用率还是性能上都优势明显


  • avro嵌套列存结构



历史

历史的角度  Parquest 剩 Avro一筹  

新的就是好的(新的是解决老的问题)

Apache Parquest  on 25 May 2013   parquet-1.0.0-t1

Apache Avro   1.0版本 2010年出 


参考:

将 avro 转换为 parquet 格式

https://github.com/laserson/avro2parquet

https://blog.csdn.net/u012978731/article/details/71080940

https://yq.aliyun.com/articles/25504

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值