ROST情感分析的语法规则_大数据之数据仓库Hive架构分析

a144446e96700eebea0c841144977d6e.png

Hive 介绍

hive 是就hadoop 的一个数据仓库工具,可以将结构化数据映射成一张表,并且提供类sql 查询功能。设计的目的就是让熟悉sql 语法的开发人员能够不通过写M/R 作业任务就可以完成对存储在hdfs中的数据进行查询计算。

hive 可以将sql 转换成计算引擎所支持的task作业执行,可以以M/R/Spark/Tez 作为计算引擎,执行下效率取决于计算引擎

hive 只是适合做批量离线数据分析处理

Hive 处理数据流程

hive 利用hdfs 存储数据,通过M/R 进行数据计算分析流程

2696453efdca0c097a9a6ba85fe41a2c.png

hive计算处理流程

Hive 组件结构(引用别人的图,哈哈)

7a0219e77439967853ad866e768022f3.png

hive 组件架构1

c0b82bb9434d9e6cf1b7295f24b60198.png

hive 组件架构2

通过上图中hive 的组件架构分析可知,hive通过以下几部分组成:

  • 元数据服务组件 Hive MetaStore Server

hive 的元数据信息保存通过独立的服务组件 Hive Metastore Server 存储在关系型数据库中,其支持的数据有derby(默认支持)、mysql等。

Hive 的运行模式:根据Hive服务和Metastore Server 是否运行在同一个进程分为内嵌模式本地模式远程模式

5d0b42e3f86fd527e6b4191df141c8b6.png

Hive 运行模式

注意:

此处提到的Thrift是一种描述性语言和通信协议,被用来定义跨语言服务(java/c++/go等),被facebook为支持大规模的跨语言服务而开发的RPC框架使用。

  • 接口组件
  1. Hive CLI 从hive-0.11 开始, Beeline 被引入作为新的命令行客户端工具,是基于SqlLine 的jdbc 客户端。
78f19a9267510bc14877d281991977fb.png

Hive CLI 连接方式

  1. HS2远程jdbc/odbc客户端

官方解释:

HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results (a more detailed intro here).

The current implementation, based on Thrift RPC, is an improved version of HiveServer and supports multi-client concurrency and authentication.

从官方解释可以看出,HS2 是一个服务接口,可以是远程客户端执行对hive的查询并且获取到对应的返回结果。此外Hive Server 的升级版本,并且支持多客户端并发和身份认证

Hive Server2(HS2) 可以通过http(hive-0.13版本以上)和tcp(即binary,默认)进行传输Thrift Rpc 消息,可以通过 hive.server2.transport.mode 设置的值(http或binary) 执行数据传输模式,不能同时使用这两种模式。

bcbbdf4630b8d2c4d729389f5d99a6d4.png

HS2 支持身份认证

从配置上可以看出,HS2 支持多种身份认证的方式,none 表示不需要身份验证。

20413315288fc2bd8c61f419e6e23cd0.png

Beeline 连接方式

HS2的执行核心是Thrift Rpc 服务。Hive Server 在tcp 传输模式下使用的是ThreadPoolServer,而http 传输模式下使用的是Jetty Server, Server 会为每一个tcp 连接分配一个线程去执行业务处理。例如,cdh 中的HS2 配置:

e6ec6aa1b6265dd9f3a5e91e37aba8b7.png

HS2 中配置的线程池大小

HS2 是怎么在Jdbc和Hive 之间完成工作协调的呢?(HS2的原理还待研究。。。)

  • driver组件

从hive的组件架构图中我们可以看出,driver 包含compiler/optimizer/executor,hive 通过antlr3 定义HiveSql 语言。

ANTLR(ANother Tool for Language Recognition) 是一款强大的语言构建工具,提供词法分析、语法分析等功能。用户编写语言的词法规则和语法规则,然后通过ANTLR 提供的运行时库将语言转换成抽象语法树,支持语法树重写,import、语法预测等功能。

compiler:

  1. 词法解析器ParseDriver:将查询的字段转换成AST抽象语法树
  2. 语法分析器SemanticAnalyzer:将AST转换成基于语句块的内部查询表达式
  3. 逻辑计划生成器 logic plan generator:将内部查询表达式转换成逻辑计划
  4. 查询计划生成器 query plan generator:将逻辑计划转换成物理计划 M/R Task,形成一个DAG图(task链)

optimizer:

优化处理,如谓词下推

executor:

执行器顺序执行DAG中的task,如果task 链不存在依赖关系(spark中的宽依赖)则会并执行task

4fe405c0fbd8c9dd25de4506738d5f11.png

Hive Sql 执行流程

参考文档:

https://www.xuebuyuan.com/2181078.html

https://www.cnblogs.com/zhangshihai1232/articles/6075124.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值