自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cumu Blog

cumu

  • 博客(3)
  • 收藏
  • 关注

原创 Hadoop MapReduce做大数据排序

1. 我们知道mapreduce天生适合作排序,由于他有一个shuffer的过程,当数据量很少的时候我们可以把reduce的num设置成1来进行排序,但是如果数据量很大,在一个reduce上处理不过来或者处理时间太长,那么我们就需要重新考虑这个排序(需要设置多个reduce) 2. 假设我们现在的数据是这样的,每个数字占一行,如: 6 1 56 43 65 15 54 93 47 56 2

2014-10-31 17:48:57 4382

原创 MapReduce实现hive join操作

1. hive中join就是一条select语句,其个性

2014-10-30 16:08:02 4335

转载 Hive 数据倾斜总结

本文转载自:http://blog.csdn.net/lovingprince/article/details/7264549 几个比较特殊的点都提到了,大家可以作为参考。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得

2014-10-21 11:35:52 1844 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除