推荐Hadoop Stack的Slides

最新推荐文章于 2022-02-13 23:52:31 发布

jefferyyansap

最新推荐文章于 2022-02-13 23:52:31 发布

阅读量474

点赞数

分类专栏：数据仓库文章标签： hadoop scalability statistics processing hbase schema

本文链接：https://blog.csdn.net/jefferyyansap/article/details/7021284

版权

数据仓库专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天看到Hadoop World上Cloudera的slides，非常震撼，以下是地址：

http://www.slideshare.net/cloudera/the-hadoop-stack-then-now-and-in-the-future-eli-collins-charles-zedlewski-cloudera

第二页：对Hadoop最好的诠释，除了Scaleble和Fault tolerant，Open source是很多互联网公司选择的主要原因。Flexibility方面，上周和客户的交流中，深深的体会到高端客户的民主诉求，这一点是哲学问题，实在是难于权衡；Scalability中提到的ETL，想起Stonebraker为首的很多DBMSers提到的，Hadoop作为ETL的前景，Terradata在VLDB上的论文值得推荐。

第三页：回到一个根本的问题，Hadoop不是一个数据管理系统，从出生的一刻开始

第四页：Search index building是一个文本处理的过程，倒排问题；Click sessionization该如何理解，一个URL上的Join问题吗？

第五页：百分比比较的magic

第七页：Avro、PB和Thrift实在是难分上下，空间考虑还是自解析，看应用的选择；对HBase的解读非常到位（怎么看怎么像一个带Schema的Cache）；对Hive的定位非常粗犷，Metadata storage，本质上如此，但是不应该在Hadoop stack上画，影响的只是Namenode；Mahout是一个ML库，相比R 3000个package，真的空间很大，但是问题在于，什么样的ML不适合Hadoop，这个问题还是需要认真的研究一下，CF在Mahout有标准支持，效率肯定是一个问题。

第八页：对应用的分类很特别，Processing（简单）、Analytics（复杂，没有独立statistics）和Serving（在线）

第十一页：Hue和Oozie似乎是走向平民的开始，有趣的是，平民们还真的没人关注；Sqoop和Unsqoop有点怪怪的，MySQL和Hadoop文件之间的关系，作为备份还真的不错，如果和Hive整合的话，会怎样呢？Auto ETL过程？效率显得很关键；最后，Flume、Scribe还有Chukwa，大家都在做补充ETL，非常重要的一点是，需要整合一部分的用户逻辑，起码的Filtering和Aggregation，单纯的传输完全没有意义。

第十二页：Real-time体现在哪里

第二十三页：美好的蓝图，OLAP缺失中，MPI，居然有这个？看来，HBASE是一个必须的趋势

总结一下，Cloudera作为一家Hadoop Ecosystem的服务商，虽然没有MapR在性能和扩展性上的飙升，也没有HortonWorks的根正苗红，作为最早得Hadoop服务提供者，坚持走着自己的平民路线，像集成Snappy这样的方案，总是最最有用的东西。

jefferyyansap

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐Hadoop Stack的Slides

今天看到Hadoop World上Cloudera的slides，非常震撼，以下是地址：http://www.slideshare.net/cloudera/the-hadoop-stack-then-now-and-in-the-future-eli-collins-charles-zedlewski-cloudera第二页：对Hadoop最好的诠释，除了Scaleble和Fault t
复制链接

扫一扫

专栏目录