如何监控impala的数据_impala使用指南

本文详细介绍了Impala的特性,包括基于内存的计算、高效率和列式存储支持,以及其在大数据实时查询和分析中的优势。文章还探讨了Impala的体系结构,包括StateStore、Catalog Daemon和Impalad组件的作用,并提供了安装选项。此外,文章讨论了Impala的监控管理,如查看StateStore和Catalog,以及如何进行数据导入和分区操作。最后,对比了Impala与Hive的区别,并展示了多种SQL用法。
摘要由CSDN通过智能技术生成

概述

Impala可以直接在存储在HDFS,HBase或Amazon Simple Storage Service(S3)中的Apache Hadoop数据上提供快速,交互式的SQL查询。 除了使用相同的统一存储平台,Impala和Apache Hive一样还使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。

Impala是用于查询大数据的工具的补充。 Impala不会替代基于MapReduce的批处理框架,如Hive。 基于MapReduce的Hive和其他框架最适用于长时间运行的批处理作业,例如涉及批处理Extract,Transform和Load(ETL)类型作业的工作。

1 impala特点

1.1 优点

基于内存进行计算,能够对PB级别的数据进行实时交互查询、分析

C ++ 编写,LLVM(C++的一种编译器)统一编译,效率高

支持Data local 效率高

兼容HiveSQL

具有数据仓库的特性,可对hive数据直接做数据分析

支持列式存储(可以和hbase整合)

支持JDBC/ODBC远程访问

1.2 缺点

对内存依赖大

完全依赖于hive

实践过程中 分区超过1w 性能严重下下降

稳定性不如hive

2 体系架构

Impala的系统架构如上图所示,Impala使用了Hive的SQL接口(包括SELECT、INSERT、JOIN等操作),表的元数据信息存储在Hive Metastore中。StateStore是Impala的一个子服务,用于监控集群中各个节点的健康状况,提供节点注册、错误检测等功能;Impala在每个节点运行了一个后台服务Impalad,用于响应外部请求,并完成实际的查询处理。Impalad主要包含Query Planner、Query Coordinator和Query Exec Engine三个模块。Query Planner接收来自SQL APP和ODBC的查询,然后将查询转换为许多子查询,Query Coordinator将这些子查询分发到各个节点上,由各个节点上的Query Exec Engine负责子查询的执行,然后返回子查询的结果,这些中间结果经过聚集之后最终返回给用户。

3 安装方式

3.1 使用cloudera manager 进行安装

3.2 手动安装

4 核心组件

4.1 Statestore Daemon

该进程负责搜集集群中Impalad进程节点的健康状况,它通过创建多个线程来处理Impalad的注册订阅,并与各节点保持心跳连接,不断地将健康状况的结果转发给所有的Impalad进程节点。一个Impala集群只需一个statestored进程节点,当某一节点不可用时,该进程负责将这一信息传递给所有的Impalad进程节点,再有新的查询时不会把请求发送到不可用的节点上。

4.2 Catalog Daemon

Impala目录服务组件将Impala SQL语句产生的元数据更改通知到群集中的所有DataNodes上。避免了通过Impala发出的SQL语句执行时产生的元数据更改,需要发出REFRESH和INVALIDATE METADATA语句才能生效。当您通过Hive创建表,加载数据等时,您需要在Impala节点上执行REFRESH或INVALIDATE METADATA,然后才能执行查询。

4.3 Impala Daemon

它是运行在集群每个节点上的守护进程ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值