Hive安装 Tez 引擎

Tez 是一个 Hive 的运行引擎,性能优于 MR。为什么优于 MR 呢?看下图
在这里插入图片描述
  用 Hive 直接编写 MR 程序,假设有四个有依赖关系的 MR 作业,上图中,绿色是 ReduceTask,云状表示写屏蔽,需要将中间结果持久化写到 HDFSTez 则可以将多个有依赖的作业转换为一个作业,这样只需写一次 HDFS,且中间节点较少,从而大大提升作业的计算性能。

Tez 不完全依赖于磁盘。除非数据量特别大,它也需要落入磁盘。数据量小的情况下,它会优先使用内存。内存能放得下,我就放内存。

MR 中间产生的文件,哪怕1K,也需要落盘。而且多个任务串联(DAG),任务与任务之间都是独立的。独立的多个任务,在调度方面也要浪费时间,必须等到这个任务执行完了才能去执行下个任务。慢就慢在中间过程。

Tez引擎安装

需要用到 tar.gz 包下载
地址:https://pan.baidu.com/s/1PePN7BXvQGheJxqT5bYYjQ 提取码:i9yb
在这里插入图片描述
一个普通 tar.gz 包,一个是minimal.tar.gz 包。
普通 tar.gz 包,需要上传至 hdfs 集群;
minimal.tar.gz包,需要在本地安装的。

1.将 tez 安装包拷贝到集群,并解压 tar 包

# 创建tez文件夹(因为tez.tar.gz解压缩后有N多文件,没有被一个文件夹包裹着)
mkdir /opt/module/tez
# 解压缩至指定文件夹
tar -zxvf /opt/software/tez-0.10.1-SNAPSHOT-minimal.tar.gz -C /opt/module/tez

2.上传 tez 依赖到 HDFS

# hdfs 创建文件夹
hadoop fs -mkdir /tez
# 上传本地文件至 hdfs 集群
hadoop fs -put /opt/software/tez-0.10.1-SNAPSHOT.tar.gz /tez

3.新建 tez-site.xml

# 在hadoop配置文件中,新建 tez-site.xml(注意:是在hadoop的 etc/hadoop 目录下新建哦)
vim $HADOOP_HOME/etc/hadoop/tez-site.xml

添加如下内容:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
		<name>tez.lib.uris</name>
		<value>${fs.defaultFS}/tez/tez-0.10.1-SNAPSHOT.tar.gz</value>
	</property>
	<property>
		<name>tez.use.cluster.hadoop-libs</name>
		<value>true</value>
	</property>
	<property>
		<name>tez.am.resource.memory.mb</name>
		<value>1024</value>
	</property>
	<property>
		<name>tez.am.resource.cpu.vcores</name>
		<value>1</value>
	</property>
	<property>
		<name>tez.container.max.java.heap.fraction</name>
		<value>0.4</value>
	</property>
	<property>
		<name>tez.task.resource.memory.mb</name>
		<value>1024</value>
	</property>
	<property>
		<name>tez.task.resource.cpu.vcores</name>
		<value>1</value>
	</property>
</configuration>

4.修改 Hadoop 环境变量

vim $HADOOP_HOME/etc/hadoop/shellprofile.d/tez.sh

在 tez.sh 中,添加 Tez 的 Jar 包相关信息

hadoop_add_profile tez
function _tez_hadoop_classpath
{
 hadoop_add_classpath "$HADOOP_HOME/etc/hadoop" after
 hadoop_add_classpath "/opt/module/tez/*" after
 hadoop_add_classpath "/opt/module/tez/lib/*" after
}

提示:
  在 hadoop 中修改的配置,需要分发到集群每台节点上。hive 只是一个客户端,不需要分发。

5.修改 Hive 的计算引擎

vim $HIVE_HOME/conf/hive-site.xml

添加:

<property>
	<name>hive.execution.engine</name>
	<value>tez</value>
</property>
<property>
	<name>hive.tez.container.size</name>
	<value>1024</value>
</property>

6.解决日志 Jar 包冲突

rm /opt/module/tez/lib/slf4j-log4j12-1.7.10.jar

提示:
  安装后,Hadoop集群 和 Hive客户端 均需要重启。

使用Tez引擎
在这里插入图片描述
在这里插入图片描述
Tez疑惑

1.Tez任务执行完成后,资源不能及时释放
在这里插入图片描述

根据其他博客介绍:Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法,在 Hive 和 Tez 配置中,添加 tez.session.am.dag.submit.timeout.secs 属性配置。我发现资源能够及时释放了。但是 hive.log 日志会报一个错误,不影响使用,但也不知道为什么。在这里插入图片描述
2.资源不及时释放,多个任务使用同一个任务id,不方便查看日志
在这里插入图片描述

自我感觉

Hive 中默认使用 MR 引擎,但是 MapReduce 并不擅长 DAG(有向无环图)计算(参考:MapReduce介绍)。

所以我猜测 Tez 引擎更多的是用来解决 DAG 任务的一个引擎。所以才会有上面的两个疑惑。处于学习阶段的自我认知,错误请指出,勿喷。哈哈

Hive终归还是要上 Spark 引擎的,就是图它的快,biu…biu…biu…

下一篇:Hive调优篇


博主写作不易,加个关注呗

求关注、求点赞,加个关注不迷路 ヾ(◍°∇°◍)ノ゙

我不能保证所写的内容都正确,但是可以保证不复制、不粘贴。保证每一句话、每一行代码都是亲手敲过的,错误也请指出,望轻喷 Thanks♪(・ω・)ノ

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

扛麻袋的少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值