上周末有幸以出差的形式参加了Hadoop中国2010大会,第一次参加带着几分兴奋。进入会场后第一感觉是人很多,会议开始后更是座无虚席。这从一个侧面表明Hadoop在国内关注度已经很高了。 从与会专家的身份来看,基本上可以分为三类:学术界、互联网公司一线工程师、互联网公司服务商。
其中学术界大多来自中科院研究所,从他们的演讲来看,已经与业界相脱离。他们自身基本没有大规模集群和数据,所提出的问题也没有针对性,因此这些人不会对Hadoop社区和业界做出贡献。
而诸如IBM、EMC,INTEL等公司,他们研究Hadoop主要是为了绑定他们的硬件进行销售,以满足话联网公司的需求。因此他们所作的工作也可以忽略。
真正主导Hadoop社区发展并做出自己贡献的是那些将Hadoop应用于生产的互联网公司,如百度、淘宝、Yahoo,Facebook等。而百度,淘宝,Facebook更是派出了一线工程师在会上分享他们的研究工作。由于对淘宝非常熟悉,因此终点听了百度和Facebook的分享。
百度主要分享了他们的HCE(Hadoop C++ Extension),调度器及以后发展方向。百度搞HCE,是因为他们的绝大部分作业是streaming。通过HCE对streaming作业的排序,压缩,解压缩,内存控制进行了优化并提供了C++版的MapReduce接口。百度的调度器是在capacity-scheduler的基础上根据自身业务改进的。百度计划对shuffle流程进行大幅改造。
Facebook这次演讲的是刚成为MapReduce Committer 的Schott chen。他主要分享Facebook做的AvatarNode,RaidNode以及Scheduler。其中AvatarNode是Namenode的热备,用以加快Namenode的Failover过程。而很nb的RaidNode可以将block备份数从3个降低1.5个,理论上可以将集群存储规模下降一半,非常值得关注。值得一提的是Facebook搞RaidNode是因为自己机房满了,以至于无法扩充集群。
从百度及Facebook的分享来看,大家遇到的问题是类似,都想方设法解决Hadoop的瓶颈问题。还有一点都在根据自己的业务优化Hadoop的相关模块,如scheduler,基本上每个公司都有自己的版本,我们也在做自己的scheduler。
通过参加本次大会,感觉到我们必须对集群的进行规划并根据自身业务特点对Hadoop进行优化。当然要优化,首先要对Hadoop机制有更加深入的理解,时不我待呀。
另外,有幸和团队以前传说中的几位大牛会面并一起吃饭,深感荣幸。