Kafka
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
在Kafka中,有两个重要且关键的组件——生产者和消费者。
生产者与消费者
生产者,发送消息的一方。生产者负责创建消息,然后将其发送到 Kafka。
消费者,接受消息的一方。消费者连接到 Kafka 上并接收消息,进而进行相应的业务逻辑处理。
我们知道,由生产者生产的数据,是消费者进行拉取消费的。我们一般通过一个中间的组件,来做一个类似于收纳盒一样的物品,生产者将数据存放在里面,消费者就往外拿。Kafka就可以完成这样一个任务。就像学生时代,男生给女生写情书,这里写情书就是生产者,情书就是消息,女生就是消费者。但有时候女生不在,男生也比较害羞,不敢直接将情书塞进女生手里,于是将情书塞在女生抽屉中。所以抽屉就是我们说得中间组件。
中间组件一般通过队列作为其运行的数据结构。队列的先进先出属性能够很好的保证消息的顺序性,同时可以使用多线程向队列中写入数据,消费者线程依次读取队列中的数据进行消费。
生产者-消费者模式通过添加一个中间层,不仅可以解耦生产者和消费者,使其易于扩展,还可以异步化调用、缓冲消息等。
最后
笔者最近在复习大数据框架,准备近期将Hadoop,Hbase,Hive,Kafka,Spark,Flink,Zookeeper等各种重要的大数据技术栈知识做笔记总结,希望正在准备面试或学习的同学可以留意一下。