China Hadoop Summit的前身叫Hadoop In China,后来跟中科院计算所分开,分成两个大会,一个叫CHS,一个叫BDTC。


今年哥们作为主持人兼演讲嘉宾参加了CHS大会,这次大会举办的十分隆重和成功,请到了业界很多的大牛,包括Hortonworks的CTO Jeff,HBase的committer Ted Yu等等,介绍了目前Hadoop 2.0上面的很多新鲜玩意,还请到了Spark界的大牛Reynold Xin等人。辛老板是Shark的主要作者,也是Tachyon的重要参与者,在Spark界是响当当的人物。还有来自国内各大互联网巨头,国外的LinkedIn,Pinterest等重要大数据公司的工程师们分享了Hadoop在各自公司中的应用,干货超多。


我是第一天架构与实践分论坛的主持人,同时在这场也有一个很水的主题报告。之所以说很水,是因为我前面出场的是特么Hortonworks的CTO。所以我压力超大,跟他所讲的Hadoop 2.0的架构和源码相比,我的集群自动化运维的内容就很水了。


在这个分论坛,其实挺难做的,我既是主持人,又是演讲者。所以用了一个比较轻松的方式跟大家见面。我怀疑这可能是历届大会中,唯一一个自己主持自己的论坛。虽然以前在社区活动里已经无数次的这样做了。但这种大型的国际会议还是第一次。


台上讲的可能还都是大面上的东西,主要是下面的交流比较重要,下来以后,跟LinkedIn的俞晨杰聊了聊,作为Hadoop的使用者,我们的感觉比较类似,这个也是我跟之前阿里,百度的朋友交流得出的一个共识,就是Hadoop其实安装部署,以及MR的开发都不是很难的事情,最难的还是在搭建后期的运维上。这在LinkedIn也是个比较现实的问题。如何去做Hadoop整个分布式系统的自动化运维,是整个Hadoop环境里面最具有挑战性的事情。正好我在我的报告里面也提到了这个问题,Hadoop本身也是个大数据的生产者,每天的日志去分析处理,找出集群运行的问题,然后进行有针对性的性能调优,是目前Hadoop生态系统所面临的挑战。


也跟很多互联网界和Hadoop界的同仁们探讨了各种各样的问题,比如我很高兴的得知,在酷狗和Pinterest都用到了phpHiveAdmin作为Hive的ADHOC的查询管理工具,作为一个开源软件的作者,我有很大的成就感。然后LinkedIn极少使用Hive,更多的是用Pig做处理;Revolution最新的RRE7可以用处理单机的方式去写R语言脚本,而不用再写成MR方式了。国内孙元浩的星环科技在Hadoop 2.0和Spark上做了大量的工作。我也依然坚持我的想法,把Hadoop及生态系统的Easy做到极致。


第二天跟以前暴风的同事们,叫上TedYu等人一起吃了个饭。早先我就在微博上说要请Ted吃饭,终于实现这个夙愿了。附带几张照片,留念一下。


然后在会上还遇到了51cto的著名美女黄丹。


It's my honor to meet you guys.


HBase Committer Ted Yu,清华87级的大牛,之前在EBAY,后来去了Hortonworks

152158768.jpg


AMPLab实验室的Reynold Xin中文叫辛缇,Spark参与者,Shark主要作者,Tachyon主要参与者,伯克利大学的高材生。

152200466.jpg


Jeff Markham,Hortonworks CTO

152202884.jpg


吴甘沙,Intel研究院首席科学家,IntelHadoop首席科学家。

152205856.jpg




最后来一张大合影


152336884.jpg


从左往右依次为

前暴风影音,现京东数据科学家杜泽龙

数盟社区创始人兴宝

前暴风影音,现缔元信数据分析工程师李立松

前暴风影音,现缔元信数据挖掘工程师赵修湘

暴风影音Hadoop运维组工程师史东杰,著名的hivefans,也是phpHBaseAdmin的作者

暴风影音Hadoop运维组工程师廖旻可,开源代码HiveHA的作者。

前新华社数据分析师,人大统计学博士,SuperStat创始人陈堰平,国内R语言界的大牛。

光头死胖子就是我,除我之外都是Hadoop和学术界的高帅富,唯我一人实是屌丝。

Hortonworks工程师,Hbase committer,著名的Ted Yu

Pinterest Hadoop工程师李杰

暴风影音HBase组负责人马延辉,也是Apache Incubator项目Pheonix的代码贡献者。

LinkedIn Hadoop工程师,著名任务流调度系统阿兹卡班Azkaban的作者俞晨杰。


十分荣幸与诸位共事。