迭代MapReduce的核心资料索引

以下是我看过的最有价值的资料,收录在Core文件夹内,按如下顺序看效果最佳:

 

1.       MapReduce Simplied Data Processing on Large Clusters

2.       Hadoop环境的安装 By 徐伟

3.       Parallel K-Means Clustering Based on MapReduce

4.       Hadoop权威指南》的第一章和第二章

5.       迭代式MapReduce框架介绍   董的博客

6.       HaLoop: Efficient Iterative Data Processing on Large Clusters

7.       Twister: A Runtime for Iterative MapReduce

8.       迭代式MapReduce解决方案(一)

9.       迭代式MapReduce解决方案(二)

10.   迭代式MapReduce解决方案(三)

11.   Granules: A Lightweight, Streaming Runtime for Cloud Computing With Support for Map-Reduce

12.   On the Performance of Distributed Data Clustering Algorithms in File and Streaming Processing Systems

13.   Spark: Cluster Computing with Working Set

14.   iMapReduce: A Distributed Computing Framework for Iterative Computation

15.   Hadoop权威指南》的第三章到第十章

16.   Map-Reduce-Merge: Simplified Relational Data Processing on Large Clusters

17.   Clustering Very Large Multi-dimensional Datasets with MapReduce

18.   HBase环境的安装 By 徐伟 + HBase 测试程序

 

Ps:简单讲解一下上面的流程,MapReduce计算模型就是Google(1)中提出来的,一定要仔细看这篇论文,我当初因为看的不够仔细走了很多的弯路。Hadoop是一个开源的MapReduce计算模型实现,按照(2)来安装,以及跑一遍Word Count程序,基本上就算是入门了。(3)这篇文章价值不大,但是可以通过其看一下K-Means算法是如何MapReduce化的,以后就可以举一反三了。(4)的作用就是加深对(1-3)的理解。从(5)开始就可以进入迭代MapReduce的子领域了,董是这方面的大牛。(6)(7)(5)中提到的两篇论文,(5-7)都要仔细的看,把迭代MapReduce的基础打牢。(8-10)也是董的文章,加深一下对迭代MapReduce问题的理解。(11)(12)Jaliya EkanayakeShrideep Pallickara合作的文章,他们是国外迭代MapReduce领域的发文章最多的两个人。(13)是伯克利大学的迭代MapReduce的文章,Spark是所有实验室产品中唯一已经商用推广的,赞!(14)这篇文章,我看的不是很细致,但是Collector的灵感就是来源于这篇文章。这个时候估计你已经有自己的解决方案了,要编程实现自己的设计了,需要仔细的看(15)了。(16) Map-Reduce-Merge咱们实验室曾经做过的一个问题。(17)这篇文章+Canopy算法,可以得出一些关于用MapReduce实现高质量数据抽样的思路。(18)如果需要使用HBase,可以参考这篇文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值