CDH-TXKT-hive、impala

这部分只讲怎么部署和管理,至于怎么使用这3者进行数据分析,在另外的课程

一、hive

1. what is hive

数据分析人员一般不会使用mr
hive is an apache project originally develed at facebook
适用于非结构化数据的分析

2. how hive works

元数据存在第三方数据库,schema + location

3. hive tables

一个表对应一个hdfs目录,包含这么目录下的所有文件
分为managed和external,external的意义在于数据可能不仅仅被hive使用,可能impala也在用,所以不能用managed
在这里插入图片描述

4. 跟RDBMS区别

不追求即时
默认不支持update和delete,可以配置支持

5. architecture

在这里插入图片描述

{1} hive metastore server是用来远程管理hive 元数据的服务,即时元数据mysql不在本地,也可以访问到元数据。总共有57张表。

{2} hiveserver2,和1一样都是thrift服务,用来把客户端提交的请求转为mr。HMS和H2一般放在工具节点。

beeline是通过jdbc,hive-shell不是通过jdbc。
beeline -u jdbc:hive2:hiveserver2主机:10000 -n 指定用户
training用户是专门用来学习的,权限很高。如果不指定也没用kerberos,就是匿名用户,权限很低

{3} gateway,就是hive的客户端

在这里插入图片描述

{4} zk,用来解决并发问题,引入了锁机制。比如drop一个表时,进行查询,会导致查询不完整。hive依赖zk。

在这里插入图片描述
在这里插入图片描述

6. hive的部署

{1} 3种部署模式

impala也是通过jdbc访问HMS元数据
在这里插入图片描述

二、impala

1. src

apache项目

{1} 和hive联系

sql没有hive的强大,有些函数不支持,更接近关系型数据库的sql
比hive快10到50倍,数据量越大差距越小
和hive共享元数据,impala会自动连接hive的metastore服务,像是双头龙,身体共享,大脑独立。

2. impala shell

3. 架构

{1} 会在每个impalad节点上缓存元数据

{2} 会把结果流式返回给central coordinator node

{3} state store和catalog server分别只需要1个,一般放在管理或工具节点,且放在同一个

state store管理的是impalad的状态
比如连接到d1的impalad,提交了查询,d1的impalad要去state store查找总共有多少impalad可用,然后分发任务
catalog server
用来管理元数据的修改
在这里插入图片描述

4. 安装

在这里插入图片描述

5. 配置

{1} shortcircuit,查询DN上的数据时,绕过NN,直接去读DN的文件块

在这里插入图片描述

{2} 配置impalad的内存

在这里插入图片描述

6. 监控

在这里插入图片描述

CDH-6.3.2是由Cloudera提供的一个开源的Hadoop生态系统版本。CDH包含了许多Apache项目,如Hadoop、HBase、HiveImpala等,并且集成了Cloudera自家开发的一些工具和服务。 要下载CDH-6.3.2,首先需要访问Cloudera官网(www.cloudera.com)。在官网上,可以找到下载页面,其中包含了各个版本的CDH。 在下载页面上,可以找到CDH-6.3.2的下载链接。点击相关链接后,会跳转到下载页面。在下载页面上,可以选择各个组件的二进制文件、文档以及示例代码等。 选择相应的组件二进制文件后,会开始下载CDH-6.3.2的安装包。下载的速度取决于网络连接的速度和服务器的负载情况。 一旦下载完成,就可以在本地进行安装。在安装之前,需要确保系统满足CDH的运行要求,如硬件配置和操作系统版本等。 CDH-6.3.2的安装过程是相对复杂和耗时的,需要仔细按照官方提供的文档进行操作。安装过程涉及到配置各个组件的参数、设置集群的配置文件以及启动服务等等。 一旦安装完成,就可以开始使用CDH-6.3.2了。CDH提供了一个Web界面,可以通过浏览器访问进行集群管理和监控。同时,也可以使用相应的命令行工具来操作和管理集群。 总结来说,要下载CDH-6.3.2,首先需要访问Cloudera官网的下载页面,选择相应的组件二进制文件进行下载。然后,按照官方文档的指引进行安装、配置和启动。最后,通过Web界面或命令行工具来管理和操作集群。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值