你代码写的像cxk-CSDN博客

原创 hive-mapreduce过程中数据倾斜处理办法

当数据分布不均匀时，在mapreduce过程中会产生数据倾斜，具体表现为某个job执行时间非常长。看是因为group by倾斜还是join引起的倾斜1.group by倾斜set hive.groupby.skewindata = true先不按GroupBy字段分发，随机分发做一次聚合额外启动一轮job，拿前面聚合过的数据按GroupBy字段分发再算结果2.JOIN倾斜set hive.optimize.skewjoin = true （负载均衡）关联时有大量空值就给空值一个随机数

2020-09-01 19:22:08 266

原创 hive语句执行时报Java heap space解决办法

在脚本里加上参数设置set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;这句话的意思是执行Map前进行小文件合并

2019-03-20 10:18:54 5490

原创 Spark中reduceByKey()和groupByKey()的区别

reduceByKey()会在shuffle之前对数据进行合并,reduceByKey()效率比groupByKey()快一点

2020-07-15 17:32:26 196

原创 Sublime text3开启后卡很久解决办法

1.2.Settings3.加上 “index_files”:false,这句

2019-03-20 10:16:04 4134 1

原创 Eclipse删除插件按钮是灰色的解决办法

之前想集成scala，在线装出错，后面又试了离线装也报错，就寻思着先把以前装的删除再重装。可是找到插件发现删除按钮是灰的，无法删除查了半天，有说把eclipse卸载重装的，还有的说的不详细的，这样太耽误时间了，最后找到一个靠谱的办法，不用卸载eclipse。方法如下：这个相当于window操作系统的还原功能，找个你想还原的时间点，它会还原到那天的插件状态，在这之后的插件都会消失。...

2019-03-15 15:30:14 1300

原创 HIVE-shuffle阶段的oom处理方法

1.增加reduce数（set mapreduce.job.reduces=xxx）2.或调整放在内存里的最大片段所占百分比（set mapreduce.reduce.shuffle.memory.limit.percent=0.10）。SHUFFLE_INPUT_BUFFER_PERCENT = “mapreduce.reduce.shuffle.input.buffer.percent”...

2019-03-06 19:25:29 2194

springboot+activiti7 入门小demo

里面有个简单的流程图，下载后可以直接执行ActivitiDemoApplicationTests这个类，按步骤执行。可以创建并且审批流程，还能查到流程记录。

2023-11-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人