- paruet列存文件结构
可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量
压缩编码可以降低磁盘存储空间
只读取需要的列,支持向量运算,能够获取更好的扫描性能
Schema :Parquet文件尾部存储了文件的元数据信息和统计信息,自描述的,方便解析
Parquet列式存储带来的性能上的提高在业内已经得到了充分的认可,特别是当你们的表非常宽(column非常多)的时候,Parquet无论在资源利用率还是性能上都优势明显
- avro嵌套列存结构
历史
历史的角度 Parquest 剩 Avro一筹
新的就是好的(新的是解决老的问题)
Apache Parquest on 25 May 2013 parquet-1.0.0-t1
Apache Avro 1.0版本 2010年出
参考:
将 avro 转换为 parquet 格式
https://github.com/laserson/avro2parquet
https://blog.csdn.net/u012978731/article/details/71080940
https://yq.aliyun.com/articles/25504