Hive更换Tez计算引擎

一、前置准备

CentOS7、jdk1.8、hive-2.3.6、hadoop-2.7.7、tez-0.9.2

想要完成本期视频中所有操作,需要以下准备:

Hadoop单机伪分布式-视频教程
Hadoop完全分布式集群环境搭建-视频教程
HA(高可用)-Hadoop集群环境搭建视频+图文教程
Linux下Hive的安装

二、简单了解

用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘

Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能

三、更换TEZ引擎

3.1 下载并解压

下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin.tar.gz。下载地址:http://www.apache.org/dyn/closer.lua/tez/0.9.2/

#下载后进行解压(hive在哪个节点就在哪个节点解压)
[xiaokang@hadoop01 ~]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz -C /opt/software/
# 重命名(可选)
[xiaokang@hadoop01 ~]$ mv /opt/software/apache-tez-0.9.2-bin/ /opt/software/tez-0.9.2

3.2 上传至HDFS

为了使各个节点都能够使用 Tez 引擎进行计算,需要将下载好的依赖包上传至HDFS

# 在HDFS上创建一个目录,用来存放tez依赖包
[xiaokang@hadoop01 ~]$ hdfs dfs -mkdir /tez
# 上传tez依赖包
[xiaokang@hadoop ~]$ hdfs dfs -put ./apache-tez-0.9.2-bin.tar.gz /tez

3.3 修改配置

进入 Hive 的配置目录/opt/software/hive-2.3.6/conf,在此目录下需要创建一个tez-site.xml文件,内容如下:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
     <!--指定要读取的tez的jar包地址 -->
     <name>tez.lib.uris</name>
     <value>${fs.defaultFS}/tez/apache-tez-0.9.2-bin.tar.gz</value>
  </property>
  <property>
     <!-- tez可使用集群的jar包 -->
     <name>tez.use.cluster.hadoop-libs</name>
     <value>true</value>
  </property>
  <property>
     <name>tez.history.logging.service.class</name>
     <value>org.apache.tez.dag.history.logging.ats.ATSHistoryLoggingService</value>
  </property>
</configuration>

hive-env.sh中的增加一下内容:

# 写你的 tez 的解压目录
export TEZ_HOME=/opt/software/tez-0.9.2 
export TEZ_JARS=""
for jar in `ls $TEZ_HOME |grep jar`; do
export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/$jar
done
for jar in `ls $TEZ_HOME/lib`; do
export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/lib/$jar
done
export
TEZ_JARS=${TEZ_JARS:1}
HIVE_AUX_JARS_PATH=$TEZ_JARS

hive-site.xml中更改hive计算引擎为tez:

<property>
    <name>hive.execution.engine</name>
    <value>tez</value>
</property>

3.4 关闭虚拟内存检查

修改Hadoop的yarn-site.xml文件,加入以下内容:

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

分发至其它节点并重新启动Hadoop集群

[xiaokang@hadoop01 ~]$ scp /opt/software/hadoop-2.7.7/etc/hadoop/yarn-site.xml xiaokang@hadoop02:/opt/software/hadoop-2.7.7/etc/hadoop/
[xiaokang@hadoop01 ~]$ scp /opt/software/hadoop-2.7.7/etc/hadoop/yarn-site.xml xiaokang@hadoop03:/opt/software/hadoop-2.7.7/etc/hadoop/

四、测试

# 启动Hive
[xiaokang@hadoop01 ~]$ hive
# 创建一张测试表
hive (default)> create table ods_user(id int,name string);
# 插入数据
hive (default)> insert into ods_user values(1,"xiaokang");
# 验证数据是否插入成功
hive (default)> select * from ods_user;
OK
ods_user.id	ods_user.name
1	xiaokang
Time taken: 0.301 seconds, Fetched: 1 row(s)

插入数据时,出现如下界面,说明使用的是Tez引擎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值