hadoop学习笔记 Hive执行生命周期

这篇博客详细介绍了Hive的数据存储格式,包括TextFile、SequenceFile和RCFile的特性和使用场景。同时,文章深入讲解了Hive的执行生命周期,从CliDriver交互模式开始,涵盖命令处理、Hive设置语句、SQL编译到执行计划生成,最后到执行结果获取和中间文件清理的全过程。
摘要由CSDN通过智能技术生成
Hive内存存储格式 


TextFile:默认数据不做压缩,磁盘开销大数据解析开销大,可用Stored as Textfile指定。
SequenceFile:使用方便、可分割、可压缩,可供多个mapper并发读取。可使用stored as sequencefile指定。SequenceFile支持三种压缩选择:none,record,block.
RCFile:列式存储方式,数据加载时性能消耗比较大,但有有好的压缩比。存储理念:先水平划分再垂直划分。保证同一行数据位于同一节点。


Hive执行生命周期
步骤
1. CliDriver交互模式
入口/bin/cli.sh
调用CliDriver类进行初始化过程
处理-e,-f,-h等信息,如果是-h打印提示信息提示退出
读取hive配置文件,设置hiveConf
创建一个控制台,进入交互模式


2. 读取命令processLine进行分割处理
在交互方式下,读取每一个输入命令行,直到;为止,然后提交给processline方法处理,该方法将输入流以;分割成多个命令然后交给processCmd(cmd)方法


3. ProcessCmd判断为操作系统命令进行相应处理
processCmd(cmd)对输入的命令行进行判断,根据命令的第一个记号(Token),分别进入相应的流程
Quit or exit系统正常退出
!开关的命令行执行操作系统命令
source开关的,读取外部文件并执行文件中的命令
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值