【apache-hive-1.2.1】local mr

在hive中运行sql有很多是比较小的SQL,数据量小,计算量小。这些比较小的SQL 如果也采用分布式的方式来执行,那么就得不偿失,因为SQL真正执行的时间可能只有10s,但是分布式任务生成的其他过程执行可能要1min。这样小任务采用local mr方式执行,就是本地执行,通过把输入数据拉回到客户端来执行

三个参数来决定:

hive.exec.mode.local.auto=true 是否启动本地mr模式

hive.exec.mode.local.auto.input.files.max=4    input files的数量,默认是4个

hive.exec.mode.local.auto.inputbytes.max=134217728   input files的大小,默认是128M


注意:

hive.exec.mode.local.auto是大前提,只有设置为true,才可能会启用local mr模式

hive.exec.mode.local.auto.input.files.max 和  hive.exec.mode.local.auto.inputbytes.max是 与的关系,只有同时满足才会执行local mr


t_1==> 5个文件

t_2==> 2个文件

hive>set hive.exec.mode.local.auto=false
hive> select * from t_2 order by id;
Query ID = hadoop_20160125132157_d767beb0-f674-4962-ac3c-8fbdd2949d01
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Starting Job = job_1453706740954_0006, Tracking URL = http://hftest0001.webex.com:8088/proxy/application_1453706740954_0006/
Kill Command = /home/hadoop/hadoop-2.7.1/bin/hadoop job  -kill job_1453706740954_0006
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2016-01-25 13:22:19,210 Stage-1 map = 0%,  reduce = 0%
2016-01-25 13:22:26,497 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.47 sec
2016-01-25 13:22:40,207 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.68 sec
MapReduce Total cumulative CPU time: 3 seconds 680 msec
Ended Job = job_1453706740954_0006
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 3.68 sec   HDFS Read: 5465 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 3 seconds 680 msec
OK
...
...


hive>set hive.exec.mode.local.auto=true
hive> select * from t_2 order by id;
hive> select * from t_2 order by id;
Automatically selecting local only mode for query                ==> 启动用本地模式
Query ID = hadoop_20160125132322_9649b904-ad87-47fa-89ad-5e5f67315ac8
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2016-01-25 13:23:27,192 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local1850780899_0002
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 1464 HDFS Write: 1618252652 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
...
...

hive>set hive.exec.mode.local.auto=true
hive> select * from t_1 order by id;
Query ID = hadoop_20160125132411_3ecd7ee9-8ccb-4bcc-8582-6d797c13babd
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Cannot run job locally: Number of Input Files (= 5) is larger than hive.exec.mode.local.auto.input.files.max(= 4)                            ==>5 > 4 还是启用了分布式
Starting Job = job_1453706740954_0007, Tracking URL = http://hftest0001.webex.com:8088/proxy/application_1453706740954_0007/
Kill Command = /home/hadoop/hadoop-2.7.1/bin/hadoop job  -kill job_1453706740954_0007
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2016-01-25 13:24:38,775 Stage-1 map = 0%,  reduce = 0%
2016-01-25 13:24:52,115 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.55 sec
2016-01-25 13:24:59,548 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.84 sec
MapReduce Total cumulative CPU time: 3 seconds 840 msec
Ended Job = job_1453706740954_0007
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 3.84 sec   HDFS Read: 5814 HDFS Write: 56 SUCCESS
Total MapReduce CPU Time Spent: 3 seconds 840 msec
OK
...
...



hive>set hive.exec.mode.local.auto=true
hive> set hive.exec.mode.local.auto.input.files.max=5;            ==> 设置输入文件数max=5
hive> select * from t_1 order by id;
Automatically selecting local only mode for query                 ==> 启用了本地模式
Query ID = hadoop_20160125132558_db2f4fca-f6bf-4b91-9569-c779a3b13386
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2016-01-25 13:26:03,232 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local264155444_0003
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 1920 HDFS Write: 1887961792 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK





转载于:https://my.oschina.net/u/204498/blog/609238

### 回答1: 这个错误通常意味着Hive不能找到所需的执行jar包。你可以尝试以下几个步骤: 1. 检查Hive的配置是否正确,并确保`hive-exec-*.jar`文件存在于`/opt/module/apache-hive-1.2.1-bin/lib/`目录中。如果不存在,你可能需要重新安装Hive。 2. 检查你的环境变量是否正确设置。确保`HIVE_HOME`指向正确的Hive安装目录,并将`$HIVE_HOME/bin`添加到`$PATH`中。 3. 如果你正在使用Hadoop集群,请确保Hive和Hadoop的版本兼容。不同版本的Hive可能需要不同版本的Hadoop支持。 4. 如果你正在使用远程Hive服务器,请确保你的客户端能够访问Hive服务器,并且Hive服务器上的配置正确。 如果以上步骤都没有解决问题,你可能需要查看Hive的日志文件,以确定更具体的错误信息。 ### 回答2: 在Hive中执行任务时,可能会遇到"Missing Hive Execution Jar"错误,表示Hive无法找到所需的hive-exec-*.jar文件。这个问题通常发生在缺少Hive的执行文件或文件位置错误的情况下。 要解决这个问题,可以按照以下步骤进行操作: 1. 首先,确保在指定的路径/opt/module/apache-hive-1.2.1-bin/lib/中存在hive-exec-*.jar文件。如果文件确实存在,那么可能是权限问题导致Hive无法读取该文件。可以使用chmod命令修改文件权限,确保Hive可以访问该文件。 2. 如果文件确实存在,并且权限设置正确,但Hive仍然无法找到该文件,可以尝试重新设置Hive的环境变量。在Hive的配置文件中(通常是hive-env.sh或hive-site.xml),检查hive.exec.jar路径的设置。确保该路径正确地指向hive-exec-*.jar文件所在的位置。 3. 最后,可以通过重新安装Hive来解决该问题。在重新安装之前,确保彻底卸载Hive,并删除掉相关的文件和目录,然后重新安装最新版本的Hive。 总之,解决"Missing Hive Execution Jar"错误的关键是确保hive-exec-*.jar文件存在且位置正确,并检查Hive的环境变量和配置文件中的设置是否正确。如果问题仍然存在,可以尝试重新安装Hive来解决该问题。 ### 回答3: 缺少Hive执行Jar包:/opt/module/apache-hive-1.2.1-bin/lib/hive-exec-*.jar。 这个错误表示在指定的路径中缺少Hive执行Jar包。Hive使用这个Jar包来执行Hive查询和任务。 要解决这个问题,首先需要确认是否正确安装了Hive,并且路径设置正确。如果路径不正确,可以在Hive的配置文件中更正路径。 另外,还需要确认是否存在这个Jar包,并且该Jar包的版本与Hive的版本兼容。需要确保Hive执行Jar包与所使用的Hive版本匹配,否则可能会出现兼容性问题。 如果确保了路径和版本都是正确的,但依然缺少该Jar包,可以尝试重新下载并安装Hive。在安装过程中,确保将Hive执行Jar包正确地放置在指定的路径下。 如果还是无法解决问题,可能需要查看Hive的日志文件以获取更多详细的错误信息。根据日志中的具体错误,可以进一步排查可能的原因,并采取相应的解决措施。 总结来说,缺少Hive执行Jar包的错误是由于路径设置不正确或Jar包版本不兼容引起的。通过检查路径配置、重新下载安装和查看日志文件等步骤,可以解决这个问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值