七十二、Impala的简介与安装部署

咱们前面几篇文章穿插了些CDH的内容,因为咱们的Impala的安装是基于CDH的,所以提前将如何部署安装CDH讲解了一下。本文我们来看一下Impala的相关知识。关注专栏《破茧成蝶——大数据篇》,查看更多相关的内容~


目录

一、Impala概述

1.1 Impala是什么

1.2 Impala的优缺点

1.2.1 优点

1.2.2 缺点

1.3 Impala的架构

二、Impala的安装

2.1 Impala的安装

2.2 Impala的测试


一、Impala概述

1.1 Impala是什么

Impala是由Cloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询。它基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点,是CDH平台首选的PB级大数据实时查询分析引擎。

1.2 Impala的优缺点

1.2.1 优点

1、基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。

2、无需转换为MapReduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。

3、使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。

4、支持各种文件格式,如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。

5、可以访问Hive的metastore,对Hive数据直接做数据分析。

1.2.2 缺点

1、对内存的依赖大,且完全依赖于Hive。

2、当分区超过1万,性能严重下降。

3、只能读取文本文件,而不能直接读取自定义二进制文件。

4、每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。

1.3 Impala的架构

Impala自身包含三个模块:Impalad、Statestore和Catalog,除此之外它还依赖Hive Metastore和HDFS。

1、Impalad:

(1)接收client的请求、Query执行并返回给中心协调节点。

(2)子节点上的守护进程,负责向statestore保持通信,汇报工作。

2、Catalog:

(1)分发表的元数据信息到各个impalad中。

(2)接收来自statestore的所有请求。

3、Statestore:

(1)负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息。

(2)负责query的协调调度。

二、Impala的安装

Impala的安装我们只介绍基于CDH的安装,这种方式相对比较便捷。Impala的官网请点击这里~

2.1 Impala的安装

1、打开cloudera manager的监控界面

2、点击添加服务

3、选择Impala

4、进行角色分配

5、启动Impala

至此,说明安装成功。

2.2 Impala的测试

1、启动Impala

[root@cdh-slave03 ~]# impala-shell

2、创建数据库并使用

3、创建表

4、加载数据到表

这里需要注意的是,在加载数据的时候,需要对hdfs上的文件目录赋权,如下所示:

hdfs dfs -chmod -R 777 /xzw

 并且在监控界面需要修改相应的权限,如下图所示:

5、查询

6、退出

quit;

 

以上就是本文的所有内容,比较简单。你们在此过程中遇到了什么问题,欢迎留言,让我看看你们都遇到了哪些问题~

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

象在舞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值