推荐Hadoop Stack的Slides

 

今天看到Hadoop World上Cloudera的slides,非常震撼,以下是地址:

http://www.slideshare.net/cloudera/the-hadoop-stack-then-now-and-in-the-future-eli-collins-charles-zedlewski-cloudera

第二页:对Hadoop最好的诠释,除了Scaleble和Fault tolerant,Open source是很多互联网公司选择的主要原因。Flexibility方面,上周和客户的交流中,深深的体会到高端客户的民主诉求,这一点是哲学问题,实在是难于权衡;Scalability中提到的ETL,想起Stonebraker为首的很多DBMSers提到的,Hadoop作为ETL的前景,Terradata在VLDB上的论文值得推荐。

第三页:回到一个根本的问题,Hadoop不是一个数据管理系统,从出生的一刻开始

第四页:Search index building是一个文本处理的过程,倒排问题;Click sessionization该如何理解,一个URL上的Join问题吗?

第五页:百分比比较的magic

第七页:Avro、PB和Thrift实在是难分上下,空间考虑还是自解析,看应用的选择;对HBase的解读非常到位(怎么看怎么像一个带Schema的Cache);对Hive的定位非常粗犷,Metadata storage,本质上如此,但是不应该在Hadoop stack上画,影响的只是Namenode;Mahout是一个ML库,相比R 3000个package,真的空间很大,但是问题在于,什么样的ML不适合Hadoop,这个问题还是需要认真的研究一下,CF在Mahout有标准支持,效率肯定是一个问题。

第八页:对应用的分类很特别,Processing(简单)、Analytics(复杂,没有独立statistics)和Serving(在线)

第十一页:Hue和Oozie似乎是走向平民的开始,有趣的是,平民们还真的没人关注;Sqoop和Unsqoop有点怪怪的,MySQL和Hadoop文件之间的关系,作为备份还真的不错,如果和Hive整合的话,会怎样呢?Auto ETL过程?效率显得很关键;最后,Flume、Scribe还有Chukwa,大家都在做补充ETL,非常重要的一点是,需要整合一部分的用户逻辑,起码的Filtering和Aggregation,单纯的传输完全没有意义。

第十二页:Real-time体现在哪里

第二十三页:美好的蓝图,OLAP缺失中,MPI,居然有这个?看来,HBASE是一个必须的趋势

总结一下,Cloudera作为一家Hadoop Ecosystem的服务商,虽然没有MapR在性能和扩展性上的飙升,也没有HortonWorks的根正苗红,作为最早得Hadoop服务提供者,坚持走着自己的平民路线,像集成Snappy这样的方案,总是最最有用的东西。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值