在大数据开发测试时,可以通过分区或分桶采样的方式。
分区针对的是固定日期,而分桶采样则侧重随机,更具有代表性。由于第一次是全量抽取数据,所以日期分区下的数据非常庞大,此时使用分桶来进行采样测试可以大幅提升效率。
在select之前可以添加Explain,先来查看查询执行计划(不是实际运行mapreduce),可以看到分桶采样已经生效,提高了开发和测试效率。
执行select语句进行抽样时发现报错(处理的数据量大时都可能报此错误):
解决方法:
在执行SQL前,设置:
set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=150000;
一般来说,遇到因硬件配置而导致的内存溢出问题,有两个思路:
1. 硬件内存充足的情况:
修改参数: mapreduce.map.java.opts、mapreduce.reduce.java.opts、
mapreduce.map.memory.mb、mapreduce.reduce.memory.mb。
增加内存:-Xmx4096m,值根据配置调整。
注意:
mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb;
mapreduce.reduce.java.opts一定要小于mapreduce.reduce.memory.mb,格式-Xmx4096m。
以map任务为例,Container其实就是在执行一个脚本文件,而脚本文件中,会执行一个 Java 的子进程,这个子进程就是真正的 Map Task,mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时,传递给虚拟机的启动参数,而默认值 -Xmx200m 表示这个 Java 程序可以使用的最大堆内存数,一旦超过这个大小,JVM 就会抛出 Out of Memory 异常,并终止进程。而mapreduce.map.memory.mb设置的是 Container 的内存上限,这个参数由 NodeManager 读取并进行控制,当 Container 的内存大小超过了这个参数值,NodeManager 会负责 kill 掉 Container。
也就是说,mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb,mapreduce.reduce.java.opts同mapreduce.map.java.opts一样的道理。
2. 硬件内存不足的情况
关闭Map Join后再次尝试,但过程会比较慢。也可以通过where条件,按照日期分批进行清洗转换。