与大数据相关的工具与技术,除了常听到的Hadoop、Spark、R之外,还有一个比较陌生的——Kafka。今天,大圣众包威客平台(www.dashengzb.cn)便来披露Kafka的逆天技术,看看它是怎样玩转大数据的。
一、Kafka在大数据的生态系统中别具价值
作为一种高吞吐量的分布式发布订阅消息系统——ApacheKafka(下称Kafka),它可以处理消费者规模的网站中的所有动作流数据。这些数据,通常是在吞吐量的要求下,通过处理日志和日志聚合等方式来解决的。Kafka补全了像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制;另外,它还可以通过Hadoop的并行加载机制来统一线上和离线的消息处理,实现通过集群机来提供实时的消费。正是这种补全Hadoop“缺陷”的特性,使得Kafka在大数据的生态系统中别具价值。