如何使用Impala合并小文件_Hadoop实操的技术博客_51CTO博客
起因是看到这篇文章。
还是以这个sql为例
select count(1)
from odserpjdata_kd.gl_code_combinations gcc, -- 1E
odserpjdata_kd.gl_balances gb -- 1000w
where gb.code_combination_id=gcc.code_combination_id --3000w
直接explain sql
set NUM_NODES=1;
explain sql
可以看到单节点的时候,所需要的内存变大了。
到clouder manager里看 查询时间变长,但是内存这块对于单节点负荷肯定变大
----------------------------------------------------------------------------------
看看官方文档
1.限制在查询时使用的节点数,一般用于debug的时候。 注意2点,query和debug
2. =0代表所有节点,或者=1 代表协调节点 (我说我设置=3 =10 和没设置一样。。)
3. 一般是你怀疑由于分布式查询 出现了结果错误,就用这个模式debug下
4.直接点 set NUM_NODES=1 可以减少小文件!!!
5.少用。因为单节点占用内存多,会直接和其他分布式sql查询 抢夺资源,导致其他查询慢。
-----至于小文件