Cloudera公司作为Hadoop商业领域的翘首人物,此前就对将Mahout包装为商业应用的一个商业公司进行收购;开启大数据学习领域的云计算领域,而跟Spark商业公司Databricks的进一步合作;进一步完善HDFS数据存储模型下的另外一种流式计算模型的整合。加上Cloudera自身的Impala产品。
在Hadoop领域下,或者大数据模型下的,三种计算和分析技术都集中于Cloudera公司的旗下。
在阿里巴巴内部的诸多云梯、流式计算、海量数据的实时处理方面,应该也逃不过此三大类计算模型的进一步包装或者整合,或者进一步挖掘和优化。
虽然未能够直接进入业界的最前沿的软件公司从事此类计算模型的研发和设计,但是在公司内部还是对这一一系列的技术进行分析研究、预言和POC.
个人也是奔着对Cloudera公司的关注,来持续研究分析内部的技术架构设计思路模型
Hadoop提供的HDFS分布式文件系统,首先解决分布式数据存储的问题;但是针对分布式数据的计算处理(尤其类似于RDBMS)的OLTP,OLAP以及RTAP的计算模型已经深入行业的处理业务中,所以但是大量的NoSQL或者HBase,Hive,Impala,Drill这些依赖MapReduce计算模型和实时交互性的计算模型,当然针对Spark的计算模型源头来源自CEP,同等的也有S4,Storm;而基于流式计算的产品还包括Tibco的streambase.
这些计算模型大部分都是依赖:主、从架构,异步事件处理机制,基于图形计算模型的计算框架,当然为了支持故障转移,引入通过Zookeeper来支持多节点的故障转移;或者通过类似的处理技术。
这些计算模型本身都是针对实际业务场景中的不同需求而设计诞生的,比如业务场景分为几个大