- 博客(3)
- 收藏
- 关注
原创 hive倾斜处理
倾斜在两种使用情形中出现 1 join 2 group by倾斜表象1.任务进度长度为99%,在任务监控页面中发现只有几个 reduce 子任务未完成;2.单一 reduce 记录与平均记录数差异过大(大于3倍),最长时长>>平均时长;3.某一个key值数据量过大导致jvm内存溢出,mr作业报错现象原因1. Map输出key数量极少,导致reduce端退化为单机作业或者集群资源没有充分利用2. M...
2018-03-21 14:26:20 225
原创 hivesql产生大量小文件原因探究及解决办法
报错代码[Fatal Error] total number of created files now is 100385, which exceeds 100000. Killing the job.出现场景一般出现在分区表的数据插入阶段,最多产生 [任务数(map/reduce) * 分区数] 个文件(实际会小于这个数值)解决办法:使用DISTRIBUTE BY 语句将数据聚集成按分区分布(若...
2018-03-20 16:54:38 6030
原创 String类
String s1="abc"与String s2=new String("abc")分别的构建过程: 首先说下常量区:常量池(constant pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量,也包括字符串常量。 String s1="abc"会首先在String池(String pool 它是存在于常
2009-11-03 20:32:00 320
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人