- 博客(2)
- 资源 (16)
- 收藏
- 关注
原创 怎样去找出线上hive或mapreduce运行慢的原因
hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程:1. top 发现进程:2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程:3. 用jstack主要用来查看某个Java进程内的线程堆栈信息:bin/jstack -F 26510
2014-08-19 16:30:42 9689
原创 hive-- 请不要用动态分区(如果分区可以确定)
如果分区是可以确定的话,千万不要用动态分区,动态分区的值是在reduce运行阶段确定的.也就是会把所有的记录distribute by。 可想而知表记录非常大的话,只有一个reduce 去处理,那简直是疯狂的。如果这个值唯一或者事先已经知道,比如按天分区(i_date=20140819) 那就用静态分区吧。静态分区在编译阶段已经确定,不需要reduce处理。 例如以下两个insert 表分区:
2014-08-19 16:26:42 14975
Silverlight3 HitTest 的2个比较好的例子
2010-04-15
CLR via C# (pdf)
2009-11-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人