Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
kafka的基础架构:
Kafka生产者发送流程详解 :
拦截器
序列化器
分区器
生产者端由两个线程协调完成,分别是main线程和Sender线程。main线程在将消息通过拦截器、序列化器和分区器处理后缓存到消息累加器(RecordAccumlator)中。Sender线程负载从RecordAccumulator中获取消息并将其发送到Kafka集群中。
- main线程:在客户端将数据放入双端队列里
- Sender线程:从队列里读取数据发送到kafka集群
- DQueue:双端队列,每个分区对应一个双端队列。队列中的内容就是ProducerBatch,即DQueue<ProducerBatch>,写入缓存时放入尾部,Sender读取消息时从头部读取。
- batch.size:只有数据积累到batch.size之后,sender才会取数据发送,默认大小为16k。
- linger.ms:如果数据迟迟没有到达batch.size,那么sender线程在等待linger.ms设置的实践到达后就会取数据发送。&#x