使用 SMACK 堆栈进行快速数据分析

本文讨论作为大数据架构的 SMACK 堆栈(Spark、Mesos、Akka、Cassandra、Kafka),能够有效结合快速在线分析和长时间运行的批式处理任务。SMACK 堆栈仅依赖经过测试的开源软件,是一个基于 Hadoop 架构的可行替代方案。

从大数据到快速数据

除了能够以批处理模式分析大型数据集之外,现代数据驱动型组织还需要尽快从所收集的数据中生成洞察,并最终采取行动。在这方面,传统的 Hadoop 堆栈(HDFS 作为存储层,MapReduce 或 Tez 作为处理框架,YARN 作为集群资源管理器)缺乏严重性。为了减轻这种情况,业界已经提出了诸如 Lambda 架构(见《程序员》2016年11月“Lambda 与 Kappa 计算架构之我见”一文)等架构。在 Lambda 架构中,一个“慢”大数据处理框架(如 Hadoop 堆栈)与一个“快速”的流处理框架(如 Apache Storm)组合在一起。由快速框架处理的数据或者与慢速处理框架周期性地重新集成,或者完全丢弃,并且由使用慢速处理框架处理的数据代替。当然,这种 Lambda 型结构并不是没有问题,它会导致代码重复和需要重新处理与集成数据。

SMACK 堆栈

所谓的 SMACK 堆栈是一个在过去一年中变得流行的架构。SMACK 堆栈的各部分如下:

  • Spark 作为一个通用、快速、内存中的大数据处理引擎;
  • Mesos 作为集群资源管理器;
  • Akka 作为一个基于 Scala 的框架,允许我们开发容错、分布式、并发应用程序;
  • Cassandra 作为一个分布式、高可用性存储层;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值