Hadoop跟Spark之间的持续整合

最新推荐文章于 2023-02-20 10:45:20 发布

huareal

最新推荐文章于 2023-02-20 10:45:20 发布

阅读量1k

点赞数

分类专栏：云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huareal/article/details/13960851

版权

Cloudera公司作为Hadoop商业领域的翘首人物，此前就对将Mahout包装为商业应用的一个商业公司进行收购；开启大数据学习领域的云计算领域，而跟Spark商业公司Databricks的进一步合作；进一步完善HDFS数据存储模型下的另外一种流式计算模型的整合。加上Cloudera自身的Impala产品。

在Hadoop领域下，或者大数据模型下的，三种计算和分析技术都集中于Cloudera公司的旗下。

在阿里巴巴内部的诸多云梯、流式计算、海量数据的实时处理方面，应该也逃不过此三大类计算模型的进一步包装或者整合，或者进一步挖掘和优化。

虽然未能够直接进入业界的最前沿的软件公司从事此类计算模型的研发和设计，但是在公司内部还是对这一一系列的技术进行分析研究、预言和POC.

个人也是奔着对Cloudera公司的关注，来持续研究分析内部的技术架构设计思路模型

Hadoop提供的HDFS分布式文件系统，首先解决分布式数据存储的问题；但是针对分布式数据的计算处理（尤其类似于RDBMS）的OLTP,OLAP以及RTAP的计算模型已经深入行业的处理业务中，所以但是大量的NoSQL或者HBase,Hive,Impala,Drill这些依赖MapReduce计算模型和实时交互性的计算模型，当然针对Spark的计算模型源头来源自CEP，同等的也有S4,Storm；而基于流式计算的产品还包括Tibco的streambase.

这些计算模型大部分都是依赖：主、从架构，异步事件处理机制，基于图形计算模型的计算框架，当然为了支持故障转移，引入通过Zookeeper来支持多节点的故障转移；或者通过类似的处理技术。

这些计算模型本身都是针对实际业务场景中的不同需求而设计诞生的，比如业务场景分为几个大

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop跟Spark之间的持续整合

Cloudera公司作为Hadoop商业领域的翘首人物，此前就对将Mahout包装为商业应用的一个商业公司进行收购；开启大数据学习领域的云计算领域，而跟Spark商业公司Databricks的进一步合作；进一步完善HDFS数据存储模型下的另外一种流式计算模型的整合。加上Cloudera自身的Impala产品。在Hadoop领域下，或者大数据模型下的，三种计算和分析技术都集中于Cloudera公
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。