MARCH Seminar——2010.6.30

最新推荐文章于 2024-09-24 22:07:02 发布

jackkp_Catus

最新推荐文章于 2024-09-24 22:07:02 发布

阅读量890

点赞数

分类专栏： jackkp的生活文章标签： 2010 mapreduce 算法分布式计算数据挖掘集群

本文链接：https://blog.csdn.net/jackkp_Catus/article/details/5705143

版权

jackkp的生活专栏收录该内容

5 篇文章 0 订阅

订阅专栏

原本安排在昨晚进行的MARCH Seminar，被改在了今天中来进行。本来以为能够更多的时间来完善我的presentation。哎! 没办法，谁叫晚上正好西班牙和葡萄牙的比赛。前者是我最喜欢的球队，后者则有我最喜欢的球星：C罗。我怎么有可能错过这场比赛呢（不过虽然比赛的结果在意料之内，但是过程确实让我失望了！）。

看完比赛之后，躺了两个小时就爬起来继续我的论文presentation。这篇论文已经是我在WWW2010上选得第二篇关于MapReduce的论文了（我的目标就是把WWW上所有关于的MapReduce论文都解决了，呵呵）。果然在我意料之中，一如前一篇的那样“恶心”。论文的题目是《Max-Cover in MapReduce》，主要是讲述使用近似算法在MapReduce分布式计算模型中解决最大覆盖问题。整篇论文使用了大量的篇幅来证明了9个重要的引理和定理来支持论文中提出的近似算法，所以整篇论文充斥了各种的数学公式和证明。看的我头不是一般的大，这样的论文最后也只能在我看了四五遍之后才开始准备PPT。不过这样的过程特别让人有成就感，特别是在最后我能独立地把9个定理给证明了一遍的时候，发现整个实验室就我一个人，那感觉真是太满足了！

不过在中午的presentation中，结果还是不小地打击了一下我。我原本以为要在老师和同学面前好好地秀一下我的数学证明能力，没想到最开始的两个引理证明就直接把老师和同学给整晕了，直接偏离了这次论文presentation的主线。最后幸好的在孙老师委婉地提醒才勉强把我的数学证明欲望给收住了。下面的presentation才开始从讲述算法背后的原理和大致思想以及与已有算法的不同之处入手，把整个的算法模型讲的较为清晰。当然其中还是得到孙老师的提示和提问，让我原本讲的不是很清晰的点给理清了。最后看看时间，又是将近两个小时！

WWW2010中MapReduce的论文已经读两篇了，还有一篇没有读，加上自己之前读的两篇SIGMOD 2010上的两篇关于MapReduce的数据挖掘论文。感觉自己对mapreduce模型有了一些自己的心得。发现MapReduce在对现有算法的设计上提出新的上下文和挑战。例如最大覆盖问题的解决上，MRGreedy算法解决在处理集合时的迭代方式明显要不同于原来的Greedy算法。虽然自己有了点积累，但是感觉自己还是要实际动手来搭建个mapreduce集群环境，运行个实际的Demo来试试。没有实践还是不行啊！

理论要联系实际嘛！