生产者
对于kafka来讲,生产者是消息产生的源头,那消息在生产者客户端做了那些事情了?
配置生产者参数,产生生产者客户端,在消息提交到生产者客户端之后,会被拦截器拦截下来,符合条件的消息经过序列化器序列化成二进制,然后通过通过分区器计算消息所在分区,然后添加在消息累加器里,sender线程把消息发送到Kafka服务端。所以说,一个生产者客户端至少有两个线程,一个主线程,一个sender线程。
拦截器
生产者客户端消息拦截器像许多框架的拦截器一样,不知一个拦截器,可以有多个拦截器,也可以自定义拦截器。多个拦截器组成拦截链。拦截器主要的目的是在消息发送之前做一些准备,拦截一些不符合规范的消息,拦截链的顺序是在interceptor.classes参数配置上。实现Producerlnterceptor接口就可以实现Kafka拦截器。
序列化器
kafka提供了许多序列化器,比如String的序列化器等,但是一般来讲,都会借助例如JSON等工具来序列化。
分区器
如果没有自定义分区器,则采用默认的分区器,默认的分区器如果key不为null,则根据key计算分区,如果key为null,将以轮询的方式等到分区。需要注意一点的是,如果key为null,分区是可用分区的一个,如果key不为null,分区为所有分区的其中一个。
自定义一个分区器,只需实现Partitioner接口即可。
消息累加器
消息累加器的每个分区都是一个双端队列,一端存,一端取,消息通过分区器之后,就会存进相应的分区,sender线程取出消息,发送给Kafka,然后清除发送的消息。缓存队列的默认大小是32M。
sender线程
生产者客户端并不是单线程程序,而是至少有两个线程,一个主线程,一个sender线程。