一、前置准备
CentOS7、jdk1.8、hive-2.3.6、hadoop-2.7.7、tez-0.9.2
想要完成本期视频中所有操作,需要以下准备:
Hadoop单机伪分布式-视频教程
Hadoop完全分布式集群环境搭建-视频教程
HA(高可用)-Hadoop集群环境搭建视频+图文教程
Linux下Hive的安装
二、简单了解

用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘
Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能
三、更换TEZ引擎
3.1 下载并解压
下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin.tar.gz
。下载地址:http://www.apache.org/dyn/closer.lua/tez/0.9.2/
#下载后进行解压(hive在哪个节点就在哪个节点解压)
[xiaokang@hadoop01 ~]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz -C /opt/software/
# 重命名(可选)
[xiaokang@hadoop01 ~]$ mv /opt/software/apache-tez-0.9.2-bin/ /opt/software/tez-0.9.2
3.2 上传至HDFS
为了使各个节点都能够使用 Tez 引擎进行计算,需要将下载好的依赖包上传至HDFS
# 在HDFS上创建一个目录,用来存放tez依赖包
[xiaokang@hadoop01 ~]$ hdfs dfs -mkdir /tez
# 上传tez依赖包
[xiaokang@hadoop ~]$ hdfs dfs -put ./apache-tez-0.9.2-bin.tar.gz /tez
3.3 修改配置
进入 Hive 的配置目录/opt/software/hive-2.3.6/conf
,在此目录下需要创建一个tez-site.xml