Hive简介(二)

Hive是一个用于大数据处理的工具,它提供了SQL接口进行数据查询和分析。Hive的核心机制包括元数据管理,SQL解析生成分布式任务,如MapReduce。它涉及语法分析、逻辑执行计划优化、代码生成及任务提交到YARN集群执行,主要用于数据仓库的统计和分析。
摘要由CSDN通过智能技术生成

一、Hive是什么

 

  • 一个sql解析+分布式任务生成和提交的工具

工作示意图

 二、Hive能做什么

  • 搭建数据仓库
  • 数据统计和分析

三、Hive核心工作机制

 1、元数据管理

     文件和表的映射关系描述,包括表名、字段名、字段分隔符、数据类型、文件格式等

 2、sql解析和生成分布式运算程序(比如Hadoop:mapreduce)


  -  对 sql做语法分析,得到语法树
  -  绑定元数据,得到“Analyzed”逻辑执行计划
  -  优化逻辑执行计划(如谓词下推,列裁剪等)
  -  逻辑执行计划转成物理执行计划(本质上就是逻辑算子转物理算子,而物理算子就是一些代码模板)
  -  代码生成
  -  编码打包程序代码,向yarn(如果是yarn集群模式)提交运行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值