Samza/KafkaAnalysizing

本文介绍了Apache Samza,一种分布式流处理框架,它利用Apache Kafka进行消息传递,并使用Apache Hadoop YARN提供容错、处理器隔离、安全性和资源管理等功能。此外,还详细解析了YARN作为下一代MapReduce框架的设计理念,以及其如何通过资源管理和任务调度/监控分离来提高系统性能。
摘要由CSDN通过智能技术生成

Apache Samza is a distributed stream processing framework. It uses Apache Kafka for messaging, and Apache Hadoop YARN to provide fault tolerance, processor isolation, security, and resource management.

Yarn是下一代的mapreduce框架,
图 2. 新的 Hadoop MapReduce 框架(Yarn)架构 

重构根本的思想是将 JobTracker 两个基本的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理全部应用程序计算资源的分配。每个应用的 ApplicationMaster 负责对应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。ResourceManager 和每一台机器的节点管理server可以管理用户在那台机器上的进程并能对计算进行组织。

关于Fault tolerance: Whenever a machine in the cluster fails, Samza works with YARN to transparently migrate your tasks to another machine.

Kafka的broker producer和consumer都是可分布的,事实上现是通过zookeeper来维护集群中这三者的信息。从而实现三者的交互。




版权声明:本文博客原创文章。博客,未经同意,不得转载。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值