Impala的核心开发语言时sql语句。
架构原理:
Query Planner:生成查询计划
Query Coordinator:查询协调器,把查询计划拆分成分布式查询计划,并且把任务分发给其它impalad,impalad结果返回给corrdinator
Query Executor:执行引擎
Impalad不断与Statestore通信,来了解其它节点的健康状况
Catalog:在某个impalad更新元数据后,catalog负责把更新同步给其它impalad
集群启动时拉取元数据信息同步impalad进程,后续通过invalidate metadata,refresh命令拉取
注意事项:
1、Impala与Hive类似重点是查询,事务操作支持不是很好。
2、Impala数据存储在HDFS文件系统,
3、Impala使用大多数与Hive相同
4、impala默认内置函数需要进入Impala默认系统数据库中执行查询,其它数据库无法查看
查询语句:
增量刷新:refresh 数据库名.表名
全量刷新:in