如何监控impala的数据_impala使用指南

最新推荐文章于 2023-06-02 14:40:16 发布

安娜的小岛

最新推荐文章于 2023-06-02 14:40:16 发布

阅读量988

点赞数

文章标签：如何监控impala的数据

本文链接：https://blog.csdn.net/weixin_35888603/article/details/111967979

版权

本文详细介绍了Impala的特性，包括基于内存的计算、高效率和列式存储支持，以及其在大数据实时查询和分析中的优势。文章还探讨了Impala的体系结构，包括StateStore、Catalog Daemon和Impalad组件的作用，并提供了安装选项。此外，文章讨论了Impala的监控管理，如查看StateStore和Catalog，以及如何进行数据导入和分区操作。最后，对比了Impala与Hive的区别，并展示了多种SQL用法。

摘要由CSDN通过智能技术生成

概述

Impala可以直接在存储在HDFS，HBase或Amazon Simple Storage Service(S3)中的Apache Hadoop数据上提供快速，交互式的SQL查询。除了使用相同的统一存储平台，Impala和Apache Hive一样还使用相同的元数据，SQL语法(Hive SQL)，ODBC驱动程序和用户界面(Hue中的Impala查询UI)。

Impala是用于查询大数据的工具的补充。 Impala不会替代基于MapReduce的批处理框架，如Hive。基于MapReduce的Hive和其他框架最适用于长时间运行的批处理作业，例如涉及批处理Extract，Transform和Load(ETL)类型作业的工作。

1 impala特点

1.1 优点

基于内存进行计算，能够对PB级别的数据进行实时交互查询、分析

C ++ 编写，LLVM(C++的一种编译器)统一编译，效率高

支持Data local 效率高

兼容HiveSQL

具有数据仓库的特性，可对hive数据直接做数据分析

支持列式存储(可以和hbase整合)

支持JDBC/ODBC远程访问

1.2 缺点

对内存依赖大

完全依赖于hive

实践过程中分区超过1w 性能严重下下降

稳定性不如hive

2 体系架构

Impala的系统架构如上图所示，Impala使用了Hive的SQL接口(包括SELECT、INSERT、JOIN等操作)，表的元数据信息存储在Hive Metastore中。StateStore是Impala的一个子服务，用于监控集群中各个节点的健康状况，提供节点注册、错误检测等功能；Impala在每个节点运行了一个后台服务Impalad，用于响应外部请求，并完成实际的查询处理。Impalad主要包含Query Planner、Query Coordinator和Query Exec Engine三个模块。Query Planner接收来自SQL APP和ODBC的查询，然后将查询转换为许多子查询，Query Coordinator将这些子查询分发到各个节点上，由各个节点上的Query Exec Engine负责子查询的执行，然后返回子查询的结果，这些中间结果经过聚集之后最终返回给用户。

3 安装方式

3.1 使用cloudera manager 进行安装

3.2 手动安装

4 核心组件

4.1 Statestore Daemon

该进程负责搜集集群中Impalad进程节点的健康状况，它通过创建多个线程来处理Impalad的注册订阅，并与各节点保持心跳连接，不断地将健康状况的结果转发给所有的Impalad进程节点。一个Impala集群只需一个statestored进程节点，当某一节点不可用时，该进程负责将这一信息传递给所有的Impalad进程节点，再有新的查询时不会把请求发送到不可用的节点上。

4.2 Catalog Daemon

Impala目录服务组件将Impala SQL语句产生的元数据更改通知到群集中的所有DataNodes上。避免了通过Impala发出的SQL语句执行时产生的元数据更改，需要发出REFRESH和INVALIDATE METADATA语句才能生效。当您通过Hive创建表，加载数据等时，您需要在Impala节点上执行REFRESH或INVALIDATE METADATA，然后才能执行查询。

4.3 Impala Daemon

它是运行在集群每个节点上的守护进程ÿ