impala 与hive 简单对比

最新推荐文章于 2024-04-16 04:02:48 发布

圣☞摧枯拉朽

最新推荐文章于 2024-04-16 04:02:48 发布

阅读量918

点赞数

分类专栏： impala

本文链接：https://blog.csdn.net/u011500419/article/details/112971398

版权

1 篇文章 0 订阅

订阅专栏

impala

可以访问hive的metastore，对hive数据直接做数据分析。

Impala虽然支持array，map，struct复杂数据类型，但是支持并不完全，一般处理方法，将复杂类型转化为基本类型，通过hive创建表。

关闭（修改hdfs的配置dfs.permissions为false）或修改hdfs的权限，否则impala没有写的权限

[hdfs@hadoop103 ~]$ hadoop fs -chmod -R 777 /

Impala不支持将本地文件导入到表中

Impala不支持WITH DBPROPERTIE…语法

Impala不支持alter database语法

当数据库被 USE 语句选中时，无法删除

如果分区没有，load data导入数据时，不能自动创建分区。

impala不支持load data local inpath…

Impala 不支持export和import命令

Impala不支持CLUSTER BY, DISTRIBUTE BY, SORT BY

Impala中不支持分桶表

Impala不支持COLLECT_SET(col)和explode（col）函数

Impala支持开窗函数

尽量将StateStore和Catalog单独部署到同一个节点，保证他们正常通信。
通过对Impala Daemon内存限制（默认256M）及StateStore工作线程数，来提高Impala的执行效率。
SQL优化，使用之前调用执行计划
选择合适的文件格式进行存储，提高查询效率。
避免产生很多小文件（如果有其他程序产生的小文件，可以使用中间表，将小文件数据存放到中间表。然后通过insert…select…方式中间表的数据插入到最终表中）
使用合适的分区技术，根据分区粒度测算
使用compute stats进行表信息搜集，当一个内容表或分区明显变化，重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致impala选择不同的连接顺序时进行查询。

[hadoop104:21000] > show table stats student;

Query: show table stats student

+-------+--------+------+--------------+-------------------+--------+-------------------+---------------------------------------------------+

+-------+--------+------+--------------+-------------------+--------+-------------------+---------------------------------------------------+

+-------+--------+------+--------------+-------------------+--------+-------------------+---------------------------------------------------+

[hadoop104:21000] > compute stats student;

Query: compute stats student

+-----------------------------------------+

| summary |

+-----------------------------------------+

| Updated 1 partition(s) and 2 column(s). |

+-----------------------------------------+