2021SC@SDUSC
hive配置
虚拟机:CentOS+VMware WorkStation
hadoop安装参考教程:hadoop安装
hive安装参考:尚硅谷大数据技术之Hive文档系列
运行时截图如下
关于源码
在hive官网下载,在本地读取,而不在虚拟机上
规划
宏观理解与分工
通过阅读其他博客知道,ql、serde、metastore包最重要。而metastore包代码内容不多,不足以分配任务。
而我们重点关注ql包。这个包实现将Hql(hive的类似sql的语句)转化为语法树、转化为查询块等一系列转化变成可执行的MapReduce任务。下面任务流程图。
而我们小组关注前面四部分,每人分别拿走一块任务
1.将HQL转化成抽象语法书AST
2.将抽象语法树AST转换成查询块QB
3.将查询块QB转换成逻辑查询计划(OP Tree)
4.对OP Tree进行逻辑优化
我负责第四部分
关于任务量
我们并不能确认任务量的多少,毕竟东西太多了,比如任务2任务3,我分别找到SemanticAnalyzer,LogicalPlanGenerator(与任务2任务3相关的类),前一个14000行,后一个20000多行;而任务4还是未知状态。并且源码里有很多包很多类,无法确定我们能做多少。同时也不排除有人的内容不足,所以找其他部分的看的可能性。
后续
关于我的任务,在分任务时我还没找到详细的描述,所以我需先确认相关包、类、功能,再确认上一阶段传给我的’逻辑查询计划’是什么东西。然后才能开始正式分析。