hive/hadoop
文章平均质量分 76
me365n
team:select
展开
-
hivesql产生大量小文件原因探究及解决办法
报错代码[Fatal Error] total number of created files now is 100385, which exceeds 100000. Killing the job.出现场景一般出现在分区表的数据插入阶段,最多产生 [任务数(map/reduce) * 分区数] 个文件(实际会小于这个数值)解决办法:使用DISTRIBUTE BY 语句将数据聚集成按分区分布(若...原创 2018-03-20 16:54:38 · 6025 阅读 · 0 评论 -
hive倾斜处理
倾斜在两种使用情形中出现 1 join 2 group by倾斜表象1.任务进度长度为99%,在任务监控页面中发现只有几个 reduce 子任务未完成;2.单一 reduce 记录与平均记录数差异过大(大于3倍),最长时长>>平均时长;3.某一个key值数据量过大导致jvm内存溢出,mr作业报错现象原因1. Map输出key数量极少,导致reduce端退化为单机作业或者集群资源没有充分利用2. M...原创 2018-03-21 14:26:20 · 224 阅读 · 0 评论