Hive 从 0 到 1 学习 —— 第三章 Hive 运行引擎 Tez


Tez 是一个 Hive 的运行引擎,性能优于 MR。为什么呢?看下图:
在这里插入图片描述

用 Hive 直接编写 MR 程序,假设有四个有依赖关系的 MR 作业,上图中,绿色是 Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到 HDFS。

Tez 可以将多个有依赖的作业转换为一个作业,这样只需写一次 HDFS,且中间节点较少,从而大大提升作业的计算性能。

1. Tez 安装

1.1 安装包准备

  1. 下载tez的依赖包

    http://tez.apache.org

  2. 拷贝 apache-tez-0.9.1-bin.tar.gz到 hadoop102 的 /opt/module目录

    [dwjf321@hadoop102 module]$ ls apache-tez-0.9.1-bin.tar.gz
    
  3. 解压缩 apache-tez-0.9.1-bin.tar.gz

    [dwjf321@hadoop102 module]$ tar -zxvf apache-tez-0.9.1-bin.tar.gz
    
  4. 修改名称

    [dwjf321@hadoop102 module]$ mv apache-tez-0.9.1-bin/ tez
    

2. 在 Hive 中配置 Tez

  1. 进入到Hive的配置目录:/opt/module/hive/conf

    [dwjf321@hadoop102 conf]$ cd /opt/module/hive/conf
    
  2. hive-env.sh文件中添加 tez 环境变量配置和依赖包环境变量配置

    [dwjf321@hadoop102 conf]$ vim hive-env.sh
    

    添加如下配置:

    export TEZ_HOME=/opt/module/tez    #是你的tez的解压目录
    export s=""
    for jar in `ls $TEZ_HOME |grep jar`; do
        export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/$jar
    done
    for jar in `ls $TEZ_HOME/lib`; do
        export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/lib/$jar
    done
    
    export HIVE_AUX_JARS_PATH=/opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar$TEZ_JARS
    
  3. hive-site.xml文件中添加如下配置,更改 hive 计算引擎

    <property>
        <name>hive.execution.engine</name>
        <value>tez</value>
    </property>
    

3. 配置 Tez

在 Hive 的 /opt/module/hive/conf下面创建一个 tez-site.xml 文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>tez.lib.uris</name>
        <value>${fs.defaultFS}/tez/tez,${fs.defaultFS}/tez/tez/lib</value>
    </property>
    <property>
        <name>tez.lib.uris.classpath</name>
        <value>${fs.defaultFS}/tez/tez,${fs.defaultFS}/tez/tez/lib</value>
    </property>
    <property>
        <name>tez.use.cluster.hadoop-libs</name>
        <value>true</value>
    </property>
    <property>
        <name>tez.history.logging.service.class</name>
        <value>org.apache.tez.dag.history.logging.ats.ATSHistoryLoggingService</value>
    </property>
</configuration>

4. 上传 Tez 到集群

1)将 /opt/module/tez上传到HDFS的 /tez路径

[dwjf321@hadoop102 conf]$ hadoop fs -mkdir /tez
[dwjf321@hadoop102 conf]$ hadoop fs -put /opt/module/tez/ /tez
[dwjf321@hadoop102 conf]$ hadoop fs -ls /tez
/tez/tez

5. 测试

  1. 启动 Hive

    [atguigu@hadoop102 hive]$ bin/hive
    
  2. 创建 LZO 表

    hive (default)> create table student(
    id int,
    name string);
    
  3. 向表中插入数据

    hive (default)> insert into student values(1,"张三");
    
  4. 如果没有报错就表示成功了

    hive (default)> select * from student;
    1    张三
    

6. 小结

  1. 运行Tez时检查到用过多内存而被NodeManager杀死进程问题:

    Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown. Application application_1546781144082_0005 failed 2 times due to AM Container for appattempt_1546781144082_0005_000002 exited with  exitCode: -103
    For more detailed output, check application tracking page:http://hadoop103:8088/cluster/app/application_1546781144082_0005Then, click on links to logs of each attempt.
    Diagnostics: Container [pid=11116,containerID=container_1546781144082_0005_02_000001] is running beyond virtual memory limits. Current usage: 216.3 MB of 1 GB physical memory used; 2.6 GB of 2.1 GB virtual memory used. Killing container.
    

    这种问题是从机上运行的Container试图使用过多的内存,而被NodeManager kill掉了。

    [摘录] The NodeManager is killing your container. It sounds like you are trying to use hadoop streaming which is running as a child process of the map-reduce task. The NodeManager monitors the entire process tree of the task and if it eats up more memory than the maximum set in mapreduce.map.memory.mb or mapreduce.reduce.memory.mb respectively, we would expect the Nodemanager to kill the task, otherwise your task is stealing memory belonging to other containers, which you don't want.
    

    解决方法:

    方案一:关掉虚拟内存检查。我们选这个,修改 yarn-site.xml

    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
    

    方案二:mapred-site.xml中设置 Map 和 Reduce 任务的内存配置如下:( value 中实际配置的内存需要根据自己机器内存大小及应用情况进行修改)

    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>1536</value>
    </property>
    <property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx1024M</value>
    </property>
    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>3072</value>
    </property>
    <property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx2560M</value>
    </property>
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值