- 博客(3)
- 资源 (16)
- 收藏
- 关注
原创 Reduce 优化(mapr)
1、合理设计桶的大小,插入桶的时候,桶的数目和reduce的数目一致,结合map的输出大小合理设置桶的大小,否则在reduce阶段就会非常慢。2、查看reduce的copy的速率,如果map output的文件过多,mapred.reduce.parallel.copies默认是12(mapr),表示一个reduce会开启12个线程向map阶段copy数据。可以加大次参数。3、reduce
2013-10-30 10:48:55 3420
原创 hive 优化 tips
一、 Hive join优化1. 尽量将小表放在join的左边,我们使用的Hive-0.90,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可以适当调
2013-10-17 15:40:21 5112
原创 一个hive任务的分析
一位开发人员每天跑相同的任务,但是他发现某一天同样的任务处理大约差不多量的数据(都是大约4亿条,hive count的结果),处理时间却相差3倍之多,一个不到一个小时,一个运行了三个小时,记录一下分析步骤。1. 首先用explain看一下hive语句执行步骤再去找对应的job任务。 可以看出此sql语句分4个任务去跑。Stage-1:执行join操作Stage-2:根据St
2013-10-17 15:03:58 8245 1
Silverlight3 HitTest 的2个比较好的例子
2010-04-15
CLR via C# (pdf)
2009-11-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人