Impala在国双的使用（一）：Impala架构和概念介绍

最新推荐文章于 2025-03-05 18:30:30 发布

置顶

StevenCoder1985

最新推荐文章于 2025-03-05 18:30:30 发布

阅读量3.2k

点赞数

分类专栏： Impala 文章标签： impala 架构

本文链接：https://blog.csdn.net/qq_18882219/article/details/78447558

版权

本文介绍了Cloudera Impala的特性，如低延时、与Hive共享元数据，以及国双为何选择使用Impala。文章详细阐述了Impala的架构，包括Impalad、Catalogd和Statestored的角色，并探讨了资源池的管理和软隔离问题，指出Impala在资源隔离上的软隔离性质及其潜在风险。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Impala是什么

Cloudera Impala是一个分布式的海量关系型数据查询引擎，有以下特点：

低延时，非常适合交互式查询的场景。我们和Hive on Tez, Azure SQL Data Warehouse做过查询性能对比，Impala的性能优势非常明显。
Impala和Hive共享元数据和存储数据，使得Hive和SparkSQL生成的数据可以在Impala里刷新后直接查询，这一点非常重要，因为目前业内广泛采用Hive和SparkSQL做数据的ETL，ETL后数据只要简单刷新就可以在Impala里做交互式查询，为网站，APP等客户端直接提供及时的数据服务。
构建在Hive和HDFS的基础之上，由于Hive和HDFS都是业内久经考验的成熟技术，基本不会出现数据丢失或者集群彻底挂掉的情况。Hive和HDFS网上信息非常多，很多Impala问题可以从Hive和HDFS的角度来解决，降低了排查和解决问题的成本。
可扩展性强，扩展成本低：其他分布式数据库例如GreenPlum在可扩展性上有很多问题，根据 https://gpdb.docs.pivotal.io/500/admin_guide/expand/expand-redistribute.html GreenPlum在加节点后需要手动Redistributing来把老数据搬运到新节点上，在Redistributing期间对集群整体性能有较大影响，而且正在Redistributing的Table或者分区会被锁上无法访问。而Impala只要加HDFS和Impala节点就可以完成扩容，HDFS Balancer会负责数据缓慢迁移，而扩容期间查询性能几乎不会受任何影响。