通过本篇文章,我们能了解kafka默认的Partitioner如何决定消息的partition,以及如何保证消息的有序性。
一个消息要发送到哪个partition是由producer决定的。
指定partition的需求大部分来自于消息有序性的保证。 例如一个关注系统会在用户关注、取关行为后发出关注、取关的消息,另一个系统消费这个消息, 比如用来更新缓存,关注加缓存、取关删除缓存。如果顺序出现错误比如先收到了取关消息后收到关注消息,则可能导致关注的缓存状态不对。 再例如一个订单系统会将订单的状态变化通过消息发送,另一个系统订阅这个消息, 把订单的状态同步到ElasticSearch中方便管理后台查询,如果订单状态的消息不能保证顺序,则可能导致ElasticSearch中保存的不是订单的最终状态。
上述的顺序性,并不需要严格的全局顺序,而是某个业务对象维度的顺序性,比如订单系统按照订单号维度保证顺序、用户关注取关消息按照发起用户id维度保证顺序即可。
而利用kafka中每个partition中的消息会按照发送顺序保存,并且同一时间内被consumer group中唯一一个consumer消费,在consumer进程内通过保证同一个key由相同的线程执行,就可以保证消息消费的顺序性,所以把同一个业务key的消息发送到同一个 partition上就可以保证整体的有序性。
要指定一个消息的partition有两种方法,一种是在调用Producer的send方法时,通过传入的ProducerRecord对象的partition字段指定,另外一种方式是通过 Producer的partitioner.class属