查看hive版本
1.执行hive命令
2.在克隆窗口下执行jps,查到进程号7225 RunJar
3.执行lsof -g 7225 | grep hive,查看加载到的hive相关jar包
4、查看hive引擎
hive> set hive.execution.engine;
hive.execution.engine=mr
5、
• Mapred.min.split.size指的是数据的最小分割单元大小。
• Mapred.max.split.size指的是数据的最大分割单元大小。
• dfs.block.size指的是HDFS设置的数据块大小。
hive> set dfs.block.size;
dfs.block.size=268435456
hive> set Mapred.min.split.size;
Mapred.min.split.size is undefined
hive> set Mapred.max.split.size;
Mapred.max.split.size is undefined
通过调整max可以起到调整Map数的作用,减小max可以增加Map数,增大max可以减少Map数。
Map phase和Reduce phase之间主要有3道工序。首先要把Map输出的结果进行排序后做成中间文件,其次这个中间文件就能分发到各个Reduce,最后Reduce端在执行Reduce phase之前把收集到的排序子文件合并成一个排序文件。
在Spill阶段,由于内存不够,数据可能没办法在内存中一次性排序完成,那么就只能把局部排序的文件先保存到磁盘上,这个动作叫Spill,然后Spill出来的多个文件可以在最后进行merge。
copy阶段是把文件从Map端copy到Reduce端。
指定压缩插入
set Hive.exec.compress.output = true;
----------------------------------------------------------
sed 命令
sed -i 's/\/opt\/hive-0.9.0\/bin\/hive/hive/g' *.sh
1.执行hive命令
2.在克隆窗口下执行jps,查到进程号7225 RunJar
3.执行lsof -g 7225 | grep hive,查看加载到的hive相关jar包
16:34 [yule@a02.hive.hadoop.qingdao.youku]$ jps
52821 Jps
52647 RunJar
tty:[3] jobs:[0] cwd:[~]
16:34 [yule@a02.hive.hadoop.qingdao.youku]$ lsof -g 52647 | grep hive
java 52647 52647 yule cwd DIR 8,5 4096 23200505 /opt/hive/apache-hive-1.2.1-bin/hcatalog/etc/hcatalog
java 52647 52647 yule mem REG 8,5 39019 23200475 /opt/hive/apache-hive-1.2.1-bin/lib/hive-cli-1.2.1.jar
java 52647 52647 yule mem REG 8,5 792964 23200402 /opt/hive/apache-hive-1.2.1-bin/lib/zookeeper-3.4.6.jar
4、查看hive引擎
hive> set hive.execution.engine;
hive.execution.engine=mr
5、
• Mapred.min.split.size指的是数据的最小分割单元大小。
• Mapred.max.split.size指的是数据的最大分割单元大小。
• dfs.block.size指的是HDFS设置的数据块大小。
hive> set dfs.block.size;
dfs.block.size=268435456
hive> set Mapred.min.split.size;
Mapred.min.split.size is undefined
hive> set Mapred.max.split.size;
Mapred.max.split.size is undefined
通过调整max可以起到调整Map数的作用,减小max可以增加Map数,增大max可以减少Map数。
Map phase和Reduce phase之间主要有3道工序。首先要把Map输出的结果进行排序后做成中间文件,其次这个中间文件就能分发到各个Reduce,最后Reduce端在执行Reduce phase之前把收集到的排序子文件合并成一个排序文件。
在Spill阶段,由于内存不够,数据可能没办法在内存中一次性排序完成,那么就只能把局部排序的文件先保存到磁盘上,这个动作叫Spill,然后Spill出来的多个文件可以在最后进行merge。
copy阶段是把文件从Map端copy到Reduce端。
指定压缩插入
set Hive.exec.compress.output = true;
----------------------------------------------------------
sed 命令
sed -i 's/\/opt\/hive-0.9.0\/bin\/hive/hive/g' *.sh