Kafka从入门到精通

Mr Tang

已于 2022-09-20 17:26:09 修改

阅读量945

点赞数

分类专栏：中间件 java 文章标签： kafka java 大数据

于 2022-09-20 09:59:33 首次发布

本文链接：https://blog.csdn.net/qq_45443475/article/details/126946724

版权

java 同时被 2 个专栏收录

53 篇文章 6 订阅

订阅专栏

中间件

8 篇文章 0 订阅

订阅专栏

一.Kafka简介

1.简介

Kafka最初是由LinkedIn公司采用Scala语言开发，基于ZooKeeper，现在已经捐献给了Apache基金会。目前Kafka已经定位为一个分布式流式处理平台，它以高吞吐、可持久化、可水平扩展、支持流处理等多种特性而被广泛应用。

2.应用场景

（1）日志收集：收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer
（2）消息系统：解耦和生产者和消费者、缓存消息等
（3）流式处理：比如spark streaming和storm

3.特性

（1）高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒；
（2）可扩展性：kafka集群支持热扩展；
（3）持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失；
（4）容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）；
（5）高并发：支持数千个客户端同时读写；

4.消息对比

（1）如果普通的业务消息解耦，消息传输，rabbitMq是首选，它足够简单，管理方便，性能够用。
（2）如果在上述，日志、消息收集、访问记录等高吞吐，实时性场景下，推荐kafka，它基于分布式，扩容便捷。
（3）如果很重的业务，要做到极高的可靠性，考虑rocketMq，但是它太重。需要你有足够的了解。

5.大厂应用

（1）京东通过kafka搭建数据平台，用于用户购买、浏览等行为的分析。成功抗住6.18的流量洪峰。
（2）阿里借鉴kafka的理念，推出自己的rocketmq。在设计上参考了kafka的架构体系。

6.基础组件

（1）zookeeper：信息中心，记录kafka的各种信息的地方
（2）broker：节点，就是你看到的机器
（3）provider：生产者，发消息的
（4）consumer：消费者，读消息的
（5）controller：其中的一个broker，作为leader身份来负责管理整个集群。如果挂掉，借助zk重新选主

7.逻辑组件

（1）topic：主题，一个消息的通道，收发总得知道消息往哪投
（2）partition：分区，每个主题可以有多个分区分担数据的传递，多条路并行，吞吐量大
（3）Replicas：副本，每个分区可以设置多个副本，副本之间数据一致。相当于备份，有备胎更可靠
（4）leader & follower：主从，上面的这些副本里有1个身份为leader，其他的为follower。leader处理partition的所有读写请求

（5）offset：偏移量，消息消费到哪一条了？每个消费者都有自己的偏移量

8.副本集合

（1）AR（assigned replica）：所有副本的统称，AR=ISR+OSR。
（2）ISR（In-sync Replica）：同步中的副本，可以参与leader选主。一旦落后太多（数量滞后和时间滞后两个维度）会被踢到OSR。
（3）OSR（Out-Sync Relipcas）：踢出同步的副本，一直追赶leader，追上后会进入ISR。

二.Springboot集成kafka

生产者

1.引入依赖

<dependency>
    <groupId>org.springframework.kafka</groupId>
    <artifactId>spring-kafka</artifactId>
</dependency>

2.配置文件

server:
  port: 18081
spring:
  kafka:
    bootstrap-servers: 192.168.211.130:9092,192.168.211.130:9093,192.168.211.130:9094
    producer: # producer 生产者
      retries: 0 # 重试次数
      acks: 1 # 应答级别:多少个分区副本备份完成时向生产者发送ack确认(可选0、1、all/-1)
      batch-size: 16384 # 批量大小
      buffer-memory: 33554432 # 生产端缓冲区大小
      #向Kafka发送数据，key采用的序列化方式
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      #向Kafka发送数据，数据采用的序列化方式
      value-serializer: org.apache.kafka.common.serialization.StringSerializer

3.生产者发送消息

@RestController
@RequestMapping(value = "/producer")
public class SendController {

    @Autowired
    private KafkaTemplate kafkaTemplate;

    /***
     * 发送消息
     * topic:要发送的队列
     * msg:发送的消息
     */
    @GetMapping(value = "/send/{topic}/{msg}")
    public String send(@PathVariable(value = "topic")String topic,@PathVariable(value = "msg")String msg){
        //消息发送
        kafkaTemplate.send(topic,msg);
        return "SUCCESS";
    }
}

消费者

步骤基本一致，改动如下

1.配置文件

server:
  port: 18082
spring:
  kafka:
    bootstrap-servers: 192.168.211.130:9092,192.168.211.130:9093,192.168.211.130:9094
    consumer: # consumer消费者
      group-id: mentugroup # 默认的消费组ID
      enable-auto-commit: true # 是否自动提交offset
      auto-commit-interval: 100  # 提交offset延时(接收到消息后多久提交offset)
      # earliest:当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费
      # latest:当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新产生的该分区下的数据
      # none:topic各分区都存在已提交的offset时，从offset后开始消费；只要有一个分区不存在已提交的offset，则抛出异常
      auto-offset-reset: latest
      key-deserializer: org.apache.kafka.common.serialization.StringDeserializer
      value-deserializer: org.apache.kafka.common.serialization.StringDeserializer

2.创建消息监听类

@Component
public class MessageListener {

    @KafkaListener(topics = {"itmentu"},groupId = "itmentuGroup")
    public void listener(ConsumerRecord<String,String> record){
        //获取消息
        String message = record.value();
        //消息偏移量
        long offset = record.offset();
        System.out.println("读取的消息："+message+"\n当前偏移量："+offset);
    }
}

3.测试

也可以将生产者与消费者建在同一个工程中，配置文件如下

  kafka:
    bootstrap-servers: 192.168.10.30:10903,192.168.10.30:10904
    producer: # producer 生产者
      retries: 0 # 重试次数
      acks: 1 # 应答级别:多少个分区副本备份完成时向生产者发送ack确认(可选0、1、all/-1)
      batch-size: 16384 # 一次最多发送数据量
      buffer-memory: 33554432 # 生产端缓冲区大小
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer

    consumer: # consumer消费者
      group-id: javagroup # 默认的消费组ID
      enable-auto-commit: true # 是否自动提交offset
      auto-commit-interval: 100 # 提交offset延时(接收到消息后多久提交offset)
      auto-offset-reset: latest  #earliest，latest
      key-deserializer: org.apache.kafka.common.serialization.StringDeserializer
      value-deserializer: org.apache.kafka.common.serialization.StringDeserializer