Impala
参加拉勾教育大数据训练营课程笔记
Impala是一个分布式,大规模并行处理(MPP)数据引擎,它包括多个进程,Impala与Hive类似,不是数据库,而是数据查询工具。
查看Impala进程:
ps -ef | grep implala
implalad,与statetore通信
Query Planner
Query Coordinator
Query Executor
statestore - 监控集群健康状况,使impalad知道哪些节点是可以正常工作的
catalog
- 某个impalad更新元数据后,catalog将更新同步给其他impalad
- 集群启动时拉取Hive元数据信息,同步给impalad
- 启动后当执行
invalidate metadata
,refresh
时才会再次从Hive拉取元数据信息