Apache Parquet 是有效存储嵌套数据的列式存储格式
Hive中的ORC(Optimized Record Columnar)也是列式存储
Parquet
1 与语言无关的定义文件格式的Parquet规范
2 不同语言的规范实现,读写Parquet
模式规范
重复数+数据类型+字段名称
重复数:required/optional/repeated
数据类型
Apache Parquet 是有效存储嵌套数据的列式存储格式
Hive中的ORC(Optimized Record Columnar)也是列式存储
Parquet
1 与语言无关的定义文件格式的Parquet规范
2 不同语言的规范实现,读写Parquet
模式规范
重复数+数据类型+字段名称
重复数:required/optional/repeated
数据类型