Impala面试题

Impala是一款高性能、低延迟的SQL查询引擎,适用于HDFS和HBase数据。它基于内存计算,支持PB级数据的实时查询,与Hive兼容但避免了MR转换,直接读取HDFS数据。主要组件包括Statestore Daemon、Catalog Daemon和Impala Daemon,其中Statestore负责集群状态同步,Catalog Daemon管理元数据,Impala Daemon执行计算。Impala的优势在于列式存储、数据本地化和JDBC支持,但对内存需求大且在分区过多时性能下降。整体架构流程涉及客户端查询、执行计划生成与执行,以及与Hive在数据存储、元数据、SQL处理等方面的比较。
摘要由CSDN通过智能技术生成

Impala概述

impala提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能

基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。

Impala特点

  • 基于内存进行计算,能够对PB级数据进行交互实时查询、分析
  • 无需转换为MR,直接读取HDFS数据,大大降低了延迟
  • C++编写
  • 兼容HiveSQL
  • 具有数据仓库的特性,可以对hive数据直接做数据分析
  • 支持数据本地化
  • 支持列式存储
  • 支持JDBC远程访问

Impala劣势

  • 对内存依赖大
  • 分区超过1w时,性能严重下降
  • 不提供对序列化和反序列化的支持

Impala架构

核心组件
Statestore Daemon
  • 负责收集分布在集群中各个impalad进程的资源信息、各节点的健康状况,同步节点信息
  • 负责query的调度
Catalog Daemon
  • 从hive元数据库中同步元数据,分发表的元数据信息到各个impalad中
  • 接收来自statestore的所有请求
Impala Daemon(impala
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值