kafka那些事+golang使用kafka

隔壁有动静

已于 2022-12-12 15:29:49 修改

阅读量1.8k

点赞数

分类专栏： go 文章标签： kafka java 大数据

于 2022-10-12 18:41:54 首次发布

本文链接：https://blog.csdn.net/weixin_41395435/article/details/127286631

版权

go 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

消息队列通信的模式
- 1.点对点模式
- 2.发布订阅模式
kafka

消息队列通信的模式

1.点对点模式

在这里插入图片描述
一个生产者对应一个消费者，生产者往队列里面发消。

优势：
1.消费者可以自己决定什么时候取消息。
2.消息取出来就没有了，不存在重复消费。
劣势：
1.消费者无法感知队列里面是否有消息要处理。

2.发布订阅模式

在这里插入图片描述
微信公众号就是消息生产者，关注这个号的粉丝就是消息消费者。

优势：
1.生产一个消息，所有消费者都可以同时收到，消费端不存在无法感知消息的情况.
2.由于不同消费者消费数据的速度不一样，推送的速度成为一个难题。假设三个消费者处理速度分别是 8M/s、5M/s、2M/s，如果队列推送的速度为 5M/s，则 consumer3 无法承受！如果队列推送的速度为 2M/s，则 consumer1、consumer2 会出现资源的极大浪费！

kafka

1.介绍：

是一个分布式数据流平台，可以运行在单台或多台服务器上形成集群。提供了发布和订阅功能，生产者和消费者能够独立的完成读操作和写操作。

2.特点:

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失
容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）
高并发：支持数千个客户端同时读写

3.使用场景：

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等分析处理。
消息系统：解耦和生产者和消费者、缓存消息等。
用户活动跟踪：Kafka经常被用来记录用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。
监控数据：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。
流式处理：比如spark streaming和storm
事件溯源

3.kafka架构

在这里插入图片描述

Producer：Producer即生产者，消息的产生者，是消息的入口。
Broker：Broker是kafka实例，每个服务器上有一个或多个kafka的实例，我们姑且认为每个broker对应一台服务器。每个kafka集群内的broker都有一个不重复的编号，如图中的broker-0、broker-1等……, 一个 broker可以容纳多个 topic。
Topic：消息的主题，可以理解为消息的分类，kafka的数据就保存在topic。在每个broker上都可以创建多个topic。
Partition：Topic的分区，每个topic可以有多个分区，分区的作用是做负载，提高kafka的吞吐量。同一个topic在不同的分区的数据是不重复的，partition的表现形式就是一个一个的文件夹！
Replication:每一个分区都有多个副本，副本的作用是做备胎。当主分区（Leader）故障的时候会选择一个备胎（Follower）上位，成为Leader。在kafka中默认副本的最大数量是10个，且副本的数量不能大于Broker的数量，follower和leader绝对是在不同的机器（因为如果这个机器挂了，那么全部都挂了，就没有leader了），同一机器对同一个分区也只可能存放一个副本（包括自己）。
Message：每一条发送的消息主体。
Consumer：消费者，即消息的消费方，是消息的出口。
Consumer Group：我们可以将多个消费组组成一个消费者组，在kafka的设计中同一个分区的数据只能被消费者组中的某一个消费者消费。同一个消费者组的消费者可以消费同一个topic的不同分区的数据，这也是为了提高kafka的吞吐量！
Zookeeper：kafka集群依赖zookeeper来保存集群的的元信息，来保证系统的可用性。

4.kafka写入流程和消息存储

(1).producer写入过程

在这里插入图片描述
注意：
1.消息写入leader后，follower是主动的去leader进行同步的！
2.如果往不存在的topic写数据，能不能写入成功呢？kafka会自动创建topic，分区和副本的数量根据默认配置都是1。

(2).选择partition的原则

如果某个topic有多个partition，producer怎么知道发给谁呢？有下面几个原则：

写入的时候可以指定写到哪个partition。
如果没有指定partition，但是有key，会使用keyhash出一个partition。
没有指定，也没有可以，那么就采用轮询的方式，这次写入这个partition，下次写入下一个partition。

(3).kafka的ACK应答机制

保证消息不丢失是一个消息队列中间件的基本保证，那producer在向kafka写入消息的时候，怎么保证消息不丢失呢？那就是通过ACK应答机制！在生产者向队列写入数据的时候可以设置参数来确定是否确认kafka接收到数据，这个参数可设置的值为0、1、all。

0代表producer往集群发送数据不需要等到集群的返回，不确保消息发送成功。安全性最低但是效率最高。
1代表producer往集群发送数据只要leader应答就可以发送下一条，只确保leader发送成功。
all代表producer往集群发送数据需要所有的follower都完成从leader的同步才会发送下一条，确保leader发送成功和所有的副本都完成备份。安全性最高，但是效率最低。