目标
测试hadoop常见的几种存储格式textfile、orcfile、parquet、sequencefile占用存储空间以及在hive、impala、presto的查询效率
测试结果
存储格式 | 未压缩 | 压缩后(snappy) | impala | presto | hive |
textfile | 35G | 10.1G | 5s | 5s | 47s |
orcfile | 6.2G | 4.8G | 不支持 | 2s | 41s |
parquet | 19.4G | 5.8G | 1.6s | 1s | 52s |
sequencefile | 41.2G | 11.4G | 4s | 10s | 61s |
在占用存储空间方面,orcfile数据压缩比例最高,其次为parquet,sequencefile比textfile占用空间还要高
在检索效率方面,orcfile与parquet在impala、presto使用差不多,效果都很不错。使用hive的话orcfile比textfile效率要高一些,,parquet比textfile效率还要低