使用 SMACK 堆栈进行快速数据分析

最新推荐文章于 2022-03-14 15:09:53 发布

社会我857

最新推荐文章于 2022-03-14 15:09:53 发布

阅读量162

点赞数

分类专栏：程序员杂志-大数据技术深度实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38113732/article/details/106537421

版权

程序员杂志-大数据技术深度实践专栏收录该内容

17 篇文章 1 订阅 ¥9.90 ¥99.00

订阅专栏

本文讨论作为大数据架构的 SMACK 堆栈（Spark、Mesos、Akka、Cassandra、Kafka），能够有效结合快速在线分析和长时间运行的批式处理任务。SMACK 堆栈仅依赖经过测试的开源软件，是一个基于 Hadoop 架构的可行替代方案。

从大数据到快速数据

除了能够以批处理模式分析大型数据集之外，现代数据驱动型组织还需要尽快从所收集的数据中生成洞察，并最终采取行动。在这方面，传统的 Hadoop 堆栈（HDFS 作为存储层，MapReduce 或 Tez 作为处理框架，YARN 作为集群资源管理器）缺乏严重性。为了减轻这种情况，业界已经提出了诸如 Lambda 架构（见《程序员》2016年11月“Lambda 与 Kappa 计算架构之我见”一文）等架构。在 Lambda 架构中，一个“慢”大数据处理框架（如 Hadoop 堆栈）与一个“快速”的流处理框架（如 Apache Storm）组合在一起。由快速框架处理的数据或者与慢速处理框架周期性地重新集成，或者完全丢弃，并且由使用慢速处理框架处理的数据代替。当然，这种 Lambda 型结构并不是没有问题，它会导致代码重复和需要重新处理与集成数据。

SMACK 堆栈

所谓的 SMACK 堆栈是一个在过去一年中变得流行的架构。SMACK 堆栈的各部分如下：

Spark 作为一个通用、快速、内存中的大数据处理引擎；
Mesos 作为集群资源管理器；
Akka 作为一个基于 Scala 的框架，允许我们开发容错、分布式、并发应用程序；
Cassandra 作为一个分布式、高可用性存储层；

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用 SMACK 堆栈进行快速数据分析

本文讨论作为大数据架构的 SMACK 堆栈（Spark、Mesos、Akka、Cassandra、Kafka），能够有效结合快速在线分析和长时间运行的批式处理任务。SMACK 堆栈仅依赖经过测试的开源软件，是一个基于 Hadoop 架构的可行替代方案。从大数据到快速数据除了能够以批处理模式分析大型数据集之外，现代数据驱动型组织还需要尽快从所收集的数据中生成洞察，并最终采取行动。在这方面，传统的 Hadoop 堆栈（HDFS 作为存储层，MapReduce 或 Tez 作为处理框架，YARN 作为集群资源
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。