CDH之Impala原理、安装、调优，以及Python连接Impala

原创

已于 2022-07-30 16:01:39 修改 · 3.1k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hadoop #大数据 #hive

于 2022-07-18 17:53:10 首次发布

文章目录

1、概述
- 1.1、特点
- 1.2、架构
2、CDH添加impala
- 2.1、配置
3、impala客户端
4、命令
5、查询
- 5.1、时间函数
6、与HIVE的区别
7、Appendix

1、概述

官方图标

Cloudera Impala是一款时髦的、开源的、大规模并行处理的 SQL引擎
为Hadoop提供低延时、高并发的查询分析功能

1.1、特点

对内存的依赖很大，速度快但容易内存溢出
data locality：尽可能地将读数和计算分配在同一台机器，减少网络开销
支持各种文件格式，如：文本文件、序列文件、RCFile、Avro、Parquet
支持压缩，如：snappy、gzip、bz2
可访问HIVE元数据，查询HIVE数据
HIVE数据更新时，需要刷新该HIVE表【缺点】

1.2、架构

架构图

创建impalad进程，impalad向StateStore提交注册订阅信息，StateStore创建1个statestored进程，用来处理impalad的注册订阅信息
客户端提交SQL
Query Planner解析SQL，生成解析树；然后Planner把解析树变成若干PlanFragment，发送到Query Coordinator
Coordinator从元数据库中获取元数据，从HDFS的名称节点中获取数据地址，以得到存储这个查询相关数据的所有数据节点
Query Coordinator初始化相应impalad上的任务执行，即把查询任务分配给所有存储这个查询相关数据的数据节点
Query Executor读取HDFS数据
Query Executor之间交换信息
Query Coordinator汇聚来自各个Query Executor的结果
Query Coordinator把结果返回给客户端。

impala组成	进程	说明
Catalog daemon	catalogd	作为Impala的目录存储库和元数据接入网关
Statestore daemon	statestored	将整个集群的元数据传播到所有Impala进程
Impala daemon	impalad	1、负责协调客户端提交的查询的执行； 2、给其它impalad分配任务以及汇总其它Impalad的执行结果； 3、读取HDFS

建议Impalad运行在DataNode所在节点
建议StateStore和Catalog服务在同一节点

2、CDH添加impala

添加服务

点选impala，然后继续

角色分配

无修改

Hue配置关联impala

2.1、配置

impalad内存

StateStore工作线程数

Impalad Deamon内存限制：
若工作节点内存128G，120G用于计算，NN分了80G，那么可分40G给impalad
StateStore工作线程数：建议调大，8或10都可

3、impala客户端

3.1、impala-shell

常用选项	说明	默认值
`-h, --help`	显示帮助信息
`-i IMPALAD, --impalad=IMPALAD`	impalad连接的`<host:port>`	当前主机的主机名:21000
`-f QUERY_FILE,` `--query_file=QUERY_FILE`

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小基基o_O 您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。