CDH-TXKT-hive、impala

最新推荐文章于 2024-04-24 09:37:51 发布

zdkdchao

最新推荐文章于 2024-04-24 09:37:51 发布

阅读量352

点赞数

分类专栏： CDH

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34224565/article/details/106631378

版权

CDH 专栏收录该内容

42 篇文章 3 订阅

订阅专栏

这部分只讲怎么部署和管理，至于怎么使用这3者进行数据分析，在另外的课程

一、hive

1. what is hive

数据分析人员一般不会使用mr
hive is an apache project originally develed at facebook
适用于非结构化数据的分析

2. how hive works

元数据存在第三方数据库，schema + location

3. hive tables

一个表对应一个hdfs目录，包含这么目录下的所有文件
分为managed和external，external的意义在于数据可能不仅仅被hive使用，可能impala也在用，所以不能用managed
在这里插入图片描述

4. 跟RDBMS区别

不追求即时
默认不支持update和delete，可以配置支持

5. architecture

在这里插入图片描述

{1} hive metastore server是用来远程管理hive 元数据的服务，即时元数据mysql不在本地，也可以访问到元数据。总共有57张表。

{2} hiveserver2，和1一样都是thrift服务，用来把客户端提交的请求转为mr。HMS和H2一般放在工具节点。

beeline是通过jdbc，hive-shell不是通过jdbc。
beeline -u jdbc:hive2:hiveserver2主机:10000 -n 指定用户
training用户是专门用来学习的，权限很高。如果不指定也没用kerberos，就是匿名用户，权限很低

{3} gateway，就是hive的客户端

在这里插入图片描述

{4} zk，用来解决并发问题，引入了锁机制。比如drop一个表时，进行查询，会导致查询不完整。hive依赖zk。

在这里插入图片描述

6. hive的部署

{1} 3种部署模式

impala也是通过jdbc访问HMS元数据
在这里插入图片描述

二、impala

1. src

apache项目

{1} 和hive联系

sql没有hive的强大，有些函数不支持，更接近关系型数据库的sql
比hive快10到50倍，数据量越大差距越小
和hive共享元数据，impala会自动连接hive的metastore服务，像是双头龙，身体共享，大脑独立。

2. impala shell

3. 架构

{1} 会在每个impalad节点上缓存元数据

{2} 会把结果流式返回给central coordinator node

{3} state store和catalog server分别只需要1个，一般放在管理或工具节点，且放在同一个

state store管理的是impalad的状态
比如连接到d1的impalad，提交了查询，d1的impalad要去state store查找总共有多少impalad可用，然后分发任务
catalog server
用来管理元数据的修改
在这里插入图片描述

4. 安装

在这里插入图片描述

5. 配置

{1} shortcircuit，查询DN上的数据时，绕过NN，直接去读DN的文件块

在这里插入图片描述

{2} 配置impalad的内存

在这里插入图片描述

6. 监控

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。