今天看到Hadoop World上Cloudera的slides,非常震撼,以下是地址:
第二页:对Hadoop最好的诠释,除了Scaleble和Fault tolerant,Open source是很多互联网公司选择的主要原因。Flexibility方面,上周和客户的交流中,深深的体会到高端客户的民主诉求,这一点是哲学问题,实在是难于权衡;Scalability中提到的ETL,想起Stonebraker为首的很多DBMSers提到的,Hadoop作为ETL的前景,Terradata在VLDB上的论文值得推荐。
第三页:回到一个根本的问题,Hadoop不是一个数据管理系统,从出生的一刻开始
第四页:Search index building是一个文本处理的过程,倒排问题;Click sessionization该如何理解,一个URL上的Join问题吗?
第五页:百分比比较的magic
第七页:Avro、PB和Thrift实在是难分上下,空间考虑还是自解析,看应用的选择;对HBase的解读非常到位(怎么看怎么像一个带Schema的Cache);对Hive的定位非常粗犷,Metadata storage,本质上如此,但是不应该在Hadoop stack上画,影响的只是Namenode;Mahout是一个ML库,相比R 3000个package,真的空间很大,但是问题在于,什么样的ML不适合Hadoop,这个问题还是需要认真的研究一下,CF在Mahout有标准支持,效率肯定是一个问题。
第八页:对应用的分类很特别,Processing(简单)、Analytics(复杂,没有独立statistics)和Serving(在线)
第十一页:Hue和Oozie似乎是走向平民的开始,有趣的是,平民们还真的没人关注;Sqoop和Unsqoop有点怪怪的,MySQL和Hadoop文件之间的关系,作为备份还真的不错,如果和Hive整合的话,会怎样呢?Auto ETL过程?效率显得很关键;最后,Flume、Scribe还有Chukwa,大家都在做补充ETL,非常重要的一点是,需要整合一部分的用户逻辑,起码的Filtering和Aggregation,单纯的传输完全没有意义。
第十二页:Real-time体现在哪里
第二十三页:美好的蓝图,OLAP缺失中,MPI,居然有这个?看来,HBASE是一个必须的趋势
总结一下,Cloudera作为一家Hadoop Ecosystem的服务商,虽然没有MapR在性能和扩展性上的飙升,也没有HortonWorks的根正苗红,作为最早得Hadoop服务提供者,坚持走着自己的平民路线,像集成Snappy这样的方案,总是最最有用的东西。