前言
之前一直考虑更换impala的文件存储格式为parquet,但是没有立即使用,最近又做了一些测试,看看parquet是否真的有用。在测试的时候顺便测了一下compute语句的效果,一起作为参考。下面抽出一个小业务的部分测试结果来展示。
测试准备
库名和表名当然不是真的。
测试范围:
- 文件格式:parquet和text
- compute语句的影响
测试用表:
表名 | 行数 | 字段数 | 物理存储大小 |
---|---|---|---|
ain | 34231137 | 11 | 1.4 G |
a_in | 395857172 | 11 | 4.4 G |
in | 62025197 | 6 | 2.5 G |
c | 4055068 | 144 | 708.3 M |
测试用例1
这个记录是当时随手测的一个结果。
sql语句:
select count(*) from c;
测试结果:
文件格式 | 第1次执行耗时 | 第2次执行耗时 |
---|---|---|
text | 7.72s | 0.74s |
parquet | 5.90s | 0.53s |
测试用例2
sql语句:
select count(uid) from c
where ***</