Kafka学习笔记02 - 适用场景

不要求消息准确性很高,但是消息的吞吐量大

由于Kafka可以处理高吞吐量的消息,所以非常适合处理系统点击日志收集。即使是有的消息被消费了一次以上,但并不影响统计结果的精确性。

而且系统点击日志一般都量很大,放到单一的硬盘中很容易把硬盘撑爆。而Kafka的分布式存储系统,可以自动的实现消息分片和服务器扩容的功能,适合收集日志。

很多实时分析系统,都是通过Kafka + Storm进行日志收集和计算分析的。


业务代码实现幂等性,且消费者速度与生产者基本匹配

如果业务代码已经实现了幂等性,那么可以通过Kafka大幅提升业务系统的性能。实现幂等性有两种方式,一种是多次调用方法都会返回同样的结果,而不是累加的结果;另一种是在消费者端增加一个缓存,缓存中存储已经消费消息的主键,一旦缓存中存在这个主键,则不再重复消费。

另一个需要注意的问题就是消费者的速度不能和生产者差别太大,如果消费者速度远远小于生产者速度,导致时间大于消息保存的时间,则会导致消息还未来得及消费就被删除。比如大于7天的消息就会删除,但是消费者还未来得及消费7天之前的消息,那么消息将丢失。遇到这种情况可以增加消息中介的分区和消费者实例,并行消费。但是如果瓶颈在数据库等其他资源,那么这种场景就不适合使用Kafka。


如果想使用Kafka处理仅仅发送一次的消息

由于Kafka的性能超过了传统的消息中间件很多,所以使用Kafka带来的优势很明显。

如果也想使用Kafka处理仅仅发送一次的消息,比如,业务端程序并没有实现幂等性。使用这种消息消费模型,需要以牺牲性能作为代价,但是由于其天生支持高可用和消息分片,则仍然比ActiveMQ这种消息中间件更好用。

首先需要每次存储消息都刷入磁盘。Kafka为了提升性能,一般是先将消息放入内存,等到一定数据或时间,才写入磁盘。设置为每写入一次消息,就刷一次盘。

开启事务永远是最保险的回滚数据的方式,如果将消息消费的偏移量放在Zookeeper或者消费者的客户端,是不能保证偏移量和业务数据在一个事中一起回滚的。所以这里需要修改Kafka的程序,将消息的偏移量存入业务数据的数据库。如果是一个库,只要开启事就可以,如果是在不同的库,则需要分布式事务。

在Kafka公布的0.9的新版本中提供了将偏移量存入自己定制的数据库中。预计在2014年12月发布。


Kafka的不适用场景,不支持消息失败的自动重试

ActiveMQ等JMS消息中间件,是支持消息失败重试的,自动重试n次在将消息放入死消息队列,供人工审查。不会因为某个消息有问题,影响后面的消息消费。但是Kafka这点要非常小心,如果采用将偏移量存入数据库,和业务数据一个事务,那么一旦某个消息有问题,需要完善的判断机制来判断消息是否已经消费,否则可能出现由于某一个消息消费不了而导致后面的消息都不能消费的情况。



转载于:https://my.oschina.net/u/719192/blog/300393

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值