- 博客(6)
- 收藏
- 关注
原创 hive-mapreduce过程中数据倾斜处理办法
当数据分布不均匀时,在mapreduce过程中会产生数据倾斜,具体表现为某个job执行时间非常长。看是因为group by倾斜还是join引起的倾斜1.group by倾斜set hive.groupby.skewindata = true先不按GroupBy字段分发,随机分发做一次聚合额外启动一轮job,拿前面聚合过的数据按GroupBy字段分发再算结果2.JOIN倾斜set hive.optimize.skewjoin = true (负载均衡)关联时有大量空值就给空值一个随机数
2020-09-01 19:22:08 266
原创 hive语句执行时报Java heap space解决办法
在脚本里加上参数设置set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;这句话的意思是执行Map前进行小文件合并
2019-03-20 10:18:54 5490
原创 Spark中reduceByKey()和groupByKey()的区别
reduceByKey()会在shuffle之前对数据进行合并,reduceByKey()效率比groupByKey()快一点
2020-07-15 17:32:26 196
原创 Eclipse删除插件按钮是灰色的解决办法
之前想集成scala,在线装出错,后面又试了离线装也报错,就寻思着先把以前装的删除再重装。可是找到插件发现删除按钮是灰的,无法删除查了半天,有说把eclipse卸载重装的,还有的说的不详细的,这样太耽误时间了,最后找到一个靠谱的办法,不用卸载eclipse。方法如下:这个相当于window操作系统的还原功能,找个你想还原的时间点,它会还原到那天的插件状态,在这之后的插件都会消失。...
2019-03-15 15:30:14 1300
原创 HIVE-shuffle阶段的oom处理方法
1.增加reduce数(set mapreduce.job.reduces=xxx)2.或调整放在内存里的最大片段所占百分比(set mapreduce.reduce.shuffle.memory.limit.percent=0.10)。SHUFFLE_INPUT_BUFFER_PERCENT = “mapreduce.reduce.shuffle.input.buffer.percent”...
2019-03-06 19:25:29 2194
springboot+activiti7 入门小demo
2023-11-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人