Hive安装Tez引擎
一、前置准备
要先安装好Hadoop(伪分布式或分布式集群)和Hive。
简单了解
用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘
Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能
二、更换Tez引擎
1、下载并解压
下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin.tar.gz
。下载地址:http://www.apache.org/dyn/closer.lua/tez/0.9.2/
#下载后进行解压(hive在哪个节点就在哪个节点解压)
[jiang@hadoop01 ~]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz -C /opt/modules/
# 重命名(可选)
[jiang@hadoop01 ~]$ mv /opt/software/apache-tez-0.9.2-bin/ /opt/modules/tez-0.9.2
2、上传至HDFS
为了使各个节点都能够使用 Tez 引擎进行计算,需要将下载好的依赖包上传至HDFS
# 在HDFS上创建一个目录,用来存放tez依赖包
[jiang@hadoop01 ~]$ hdfs dfs -mkdir /tez
# 上传tez依赖包
[jiang@hadoop01 ~]$ hdfs dfs -put ./apache-tez-0.9.2-bin.tar.gz /tez
3 、修改配置
进入 Hive 的配置目录/opt/modules/hive-2.3.0/conf
,在此目录下需要创建一个tez-site.xml
文件,内容如下:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<!--指定要读取的tez的jar包地址 -->
<name>tez.lib.uris</name>
<value>${fs.defaultFS}/tez/apache-tez-0.9.2-bin.tar.gz</value>
</property>
<property>
<!-- tez可使用集群的jar包 -->
<name>tez.use.cluster.hadoop-libs</name>
<value>true</value>
</property>
<property>
<name>tez.history.logging.service.class</name>
<value>org.apache.tez.dag.history.logging.ats.ATSHistoryLoggingService</value>
</property>
</configuration>
在 hive-env.sh
中的增加一下内容:
# 写你的 tez 的解压目录
export TEZ_HOME=/opt/modules/tez-0.9.2
export TEZ_JARS=""
for jar in `ls $TEZ_HOME |grep jar`; do
export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/$jar
done
for jar in `ls $TEZ_HOME/lib`; do
export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/lib/$jar
done
export
TEZ_JARS=${TEZ_JARS:1}
HIVE_AUX_JARS_PATH=$TEZ_JARS
在hive-site.xml
中更改hive计算引擎为tez,添加一下内容:
<property>
<name>hive.execution.engine</name>
<value>tez</value>
</property>
4、关闭虚拟内存检查
修改Hadoop的yarn-site.xml
文件,加入以下内容:
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
分发至其它节点并重新启动Hadoop集群
[jiang@hadoop01 ~]$ scp /opt/modules/hadoop-2.7.2/etc/hadoop/yarn-site.xml jiang@hadoop02:/opt/modules/hadoop-2.7.2/etc/hadoop/
[jiang@hadoop01 ~]$ scp /opt/modules/hadoop-2.7.2/etc/hadoop/yarn-site.xml jiang@hadoop03:/opt/modules/hadoop-2.7.2/etc/hadoop/
启动Hadoop和Hive。
查询数据时,出现如下界面,说明使用的是Tez引擎。