从自定义排序深入理解单机hadoop执行mapreduce过程
我们对数据进行处理的过程中,最常见的一种操作是排序和统计,特别是在数据量大的场景,实现高效的排序是业务系统开发过程中非常重要的一块。本人所在的公司是个电商企业,交易量非常大,同时产生的财务数据量也是非常大,所以我们有多达几十T的数据都会存放到hadoop,如何从hadoop中高效地提取有用的数据成为了工作中重要的一环。在自定义排序类的过程中,遇到了不少问题,而hadoop执行过程中对异常的处理往往
原创
2016-06-02 21:03:36 ·
716 阅读 ·
0 评论