文章目录
Impala概述
impala提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能
基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
Impala特点
- 基于内存进行计算,能够对PB级数据进行交互实时查询、分析
- 无需转换为MR,直接读取HDFS数据,大大降低了延迟
- C++编写
- 兼容HiveSQL
- 具有数据仓库的特性,可以对hive数据直接做数据分析
- 支持数据本地化
- 支持列式存储
- 支持JDBC远程访问
Impala劣势
- 对内存依赖大
- 分区超过1w时,性能严重下降
- 不提供对序列化和反序列化的支持
Impala架构
核心组件
Statestore Daemon
- 负责收集分布在集群中各个impalad进程的资源信息、各节点的健康状况,同步节点信息
- 负责query的调度
Catalog Daemon
- 从hive元数据库中同步元数据,分发表的元数据信息到各个impalad中
- 接收来自statestore的所有请求