kafka简介和使用场景(一&二)

文章分以下几个部分:kafka基础名词、使用说明、场景、原理、架构、快的原因、其它中间件共同的优化措施、面试QA等

一、kafka简介

1.1 kafka是什么

Apache Kafka是 一个分布式流处理平台

流处理平台有以下三种特性:

  1. 发布(写)和订阅(读)流事件,包括来自其他系统的数据的持续导入/导出的。
  2. 存储持久和可靠的事件流
  3. 在事件发生时或追溯性地处理事件流。

Kafka可以用于两大类别的应用:

  1. 构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。(相当于message queue)
  2. 构建实时流式应用程序,对这些流数据进行转换或者影响。(就是流处理,通过kafka stream topic和topic之间内部进行变化)

1.2 历史由来

Kafka从何而来?我们为什么要开发Kafka? Kafka到底是什么?
Kafka 最初是 LinkedIn 的一个内部基础设施系统。我们发现虽然有很多数据库和系统可以用来存储数据,但在我们的架构里,刚好缺一个可以帮助处理持续数据流的组件。在开发Kafka之前,我们实验了各种现成的解决方案,从消息系统到日志聚合系统,再到ETL工具,它们都无法满足我们的需求。
最后,我们决定从头开发一个系统。我们不想只是开发一个能够存储数据的系统,比如传统的关系型数据库、键值存储引擎、搜索引擎或缓存系统,我们希望能够把数据看成是持续变化和不断增长的流,并基于这样的想法构建出一个数据系统。事实上,是一个数据架构。
这个想法实现后比我们最初预想的适用性更广。Kafka 一开始被用在社交网络的实时应用和数据流当中,而现在已经成为下一代数据架构的基础。大型零售商正在基于持续数据流改造他们的基础业务流程,汽车公司正在从互联网汽车那里收集和处理实时数据流,银行也在重新思考基于 Kafka 改造他们的基础。

1.3 历史版本

版本号备注
0.7上古版本,提供了最基础的消息队列功能
0.8引入了副本机制,成为了一个真正意义上完备的分布式高可靠消息队列解决方案
0.8.2新版本 Producer API,即需要指定 Broker 地址的 Producer
0.9增加了基础的安全认证 / 权限,Java 重写了新版本消费者 API
0.10.0.0引入了 Kafka Streams
0.11.0.0提供幂等性 Producer API 以及事务(Transaction) API,对 Kafka 消息格式做了重构。
1.0Kafka Streams 的各种改进
2.0Kafka Streams 的各种改进

1.4 术语

  • 消息:Record。这里的消息就是指 Kafka 处理的主要对象。
  • 服务:Broker。一个 Kafka 集群由多个 Broker 组成,Broker 负责接收和处理客户端发送过来的请求,以及对消息进行持久化。
  • 主题:Topic。主题是承载消息的逻辑容器,在实际使用中多用来区分具体的业务。
  • 分区:Partition。一个有序不变的消息序列。每个主题下可以有多个分区。
  • 消息位移:Offset。表示分区中每条消息的位置信息,是一个单调递增且不变的值。
  • 副本:Replica。Kafka 中同一条消息能够被拷贝到多个地方以提供数据冗余,这些地方就是所谓的副本。副本还分为领导者副本和追随者副本,各自有不同的角色划分。副本是在分区层级下的,即每个分区可配置多个副本实现高可用。
  • 生产者:Producer。向主题发布新消息的应用程序。
  • 消费者:Consumer。从主题订阅新消息的应用程序。
  • 消费者位移:Consumer Offset。表征消费者消费进度,每个消费者都有自己的消费者位移。
  • 消费者组:Consumer Group。多个消费者实例共同组成的一个组,同时消费多个分区以实现高吞吐。
  • 重平衡:Rebalance。消费者组内某个消费者实例挂掉后,其他消费者实例自动重新分配订阅主题分区的过程。Rebalance 是 Kafka 消费者端实现高可用的重要手段。
  • leader: replica 中的一个角色, producer 和 consumer 只跟 leader 交互。
  • follower: replica 中的一个角色,从 leader 中复制数据。
  • controller: Kafka的核心组件。它的主要作用是在Apache ZooKeeper的帮助下管理和协调整个Kafka集群
  • ZK: kafka 通过 zookeeper 来存储集群的 meta 信息。
  • LEO:Log End Offset。日志末端位移值或末端偏移量,表示日志下一条待插入消息的位移值。举个例子,如果日志有10条消息,位移值从0开始,那么,第10条消息的位移值就是9。此时,LEO = 10。
  • LSO:Log Stable Offset。这是Kafka事务的概念。如果你没有使用到事务,那么这个值不存在(其实也不是不存在,只是设置成一个无意义的值)。该值控制了事务型消费者能够看到的消息范围。它经常与Log Start Offset,即日志起始位移值相混淆,因为有些人将后者缩写成LSO,这是不对的。在Kafka中,LSO就是指代Log Stable Offset。
  • AR:Assigned Replicas。AR是主题被创建后,分区创建时被分配的副本集合,副本个数由副本因子决定。
  • ISR:In-Sync Replicas。Kafka中特别重要的概念,指代的是AR中那些与Leader保持同步的副本集合。在AR中的副本可能不在ISR中,但Leader副本天然就包含在ISR中。关于ISR,还有一个常见的面试题目是如何判断副本是否应该属于ISR。目前的判断依据是:Follower副本的LEO落后Leader LEO的时间,是否超过了Broker端参数replica.lag.time.max.ms值。如果超过了,副本就会被从ISR中移除。
  • HW:高水位值(High watermark)。这是控制消费者可读取消息范围的重要字段。一个普通消费者只能“看到”Leader副本上介于Log Start Offset和HW(不含)之间的所有消息。水位以上的消息是对消费者不可见的。关于HW,问法有很多,我能想到的最高级的问法,就是让你完整地梳理下Follower副本拉取Leader副本、执行同步机制的详细步骤。这就是我们的第20道题的题目,一会儿我会给出答案和解析。

1.5 核心API

  1. Admin API :管理和检查topic、brokers、和其它kafka对象。

    The Admin API to manage and inspect topics, brokers, and other Kafka objects.

  2. 生产者API。发布流事件到一个或者多个kafka主题(topics)。

    The Producer API to publish (write) a stream of events to one or more Kafka topics.

  3. 消费者API。订阅一个或多个主题,并处理产生于这些主题的流事件

    • The Consumer API to subscribe to (read) one or more topics and to process the stream of events produced to them.
  4. StreamsAPI允许一个应用程序作为一个流处理器,消费一个或者多个topic产生的输入流,然后生产一个输出流到一个或多个topic中去,在输入输出流中进行有效的转换。

    The Kafka Streams API to implement stream processing applications and microservices. It provides higher-level functions to process event streams, including transformations, stateful operations like aggregations and joins, windowing, processing based on event-time, and more. Input is read from one or more topics in order to generate output to one or more topics, effectively transforming the input streams to output streams.

  5. ConnectorAPI,允许构建并运行可重用的生产者或者消费者,将Kafka topics连接到已存在的应用程序或者数据系统。比如,连接到一个关系型数据库,捕捉表(table)的所有变更内容。

    The Kafka Connect API to build and run reusable data import/export connectors that consume (read) or produce (write) streams of events from and to external systems and applications so they can integrate with Kafka.

二、使用场景

服务解耦,异步处理,限流削峰,消息驱动的系统,配合流式处理(像kafka streaming,storm flink等)做实时流计算

转载请注明:arthur.dy.lee_kafka简介和使用场景(一)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: RabbitMQ和Kafka都是消息队列系统,但它们的使用场景略有不同。 RabbitMQ适用于需要可靠消息传递的场景,例如金融交易、电子商务等。它支持多种消息传递模式,包括点对点、发布/订阅、工作队列等。RabbitMQ还提供了高级功能,如消息确认、持久化、优先级等,可以确保消息传递的可靠性和稳定性。 Kafka适用于需要高吞吐量的场景,例如日志收集、流处理等。它采用分布式架构,可以轻松地扩展到多个节点,支持高并发的消息传递。Kafka还提供了流处理功能,可以实时处理数据流,支持复杂的数据转换和分析。 总之,选择RabbitMQ还是Kafka,取决于具体的业务需求和场景。 ### 回答2: RabbitMQ和Kafka都是流行的消息代理系统,它们的使用场景有所不同。 RabbitMQ适合处理复杂、逻辑较强的消息传递场景,比如高可靠性、高并发、多样的消息传递方式。RabbitMQ支持多种消息传递模式,包括点对点、发布/订阅、消息队列和主题等,可以满足不同场景下的需求。RabbitMQ的广泛使用场景包括电子商务、金融交易、电信网络等。RabbitMQ的高可靠性、高吞吐量、大规模集群和灵活的体系结构,使得它能够应对各种复杂的消息传递需求。 而Kafka则专注于高吞吐量、高度可扩展的消息传递场景,以简单、高效、快速为目标。Kafka具有高度的可扩展性,容易与其他系统集成,适合处理流数据(例如日志、实时监控数据、事件数据等)。Kafka使用发布/订阅模式实现消息传递,其优势在于可以快速地处理大规模数据,而不必担心吞吐量或性能问题。由于Kafka的高效性和可扩展性,它被广泛用于分布式系统、大数据处理、日志收集和实时分析等领域。 综上所述,RabbitMQ和Kafka分别适用于不同的场景和需求。对于有复杂逻辑、多样的消息传递方式和高可靠性要求的应用场景,RabbitMQ是一个不错的选择。如果是需要快速、高效地处理大量数据,且需要高度的可扩展性和可靠性,那么Kafka则更加适合。当然,在实际应用中也有可能需要同时使用两个消息代理系统来实现不同的消息传递需求。 ### 回答3: RabbitMQ 和 Kafka 都是消息队列系统,不同之处在于其设计的重点不同,因此在使用场景上也有所不同。 RabbitMQ 适用于需要高度可靠性和灵活性的应用场景。它为开发人员提供了一些很好的特性,如事务、优先级队列、消息确认和持久化等。这些特性使得 RabbitMQ 能够确保消息不会丢失并且确保消息会按照正确的顺序被处理。RabbitMQ 通常用于企业级应用程序中,如金融、电信、电子商务等领域,因为这些行业对于数据的安全和可靠性要求较高。 Kafka 适用于需要处理大量数据的应用场景,例如日志处理、大数据分析等。 Kafka 的设计使其可以处理数TB的数据,能够扩展以处理需要处理的数据的增长,同时保证很高的吞吐量和低延迟。凭借其分布式、可伸缩性的架构,Kafka 被广泛应用于社交媒体、移动应用程序、在线广告等领域。 综上所述,RabbitMQ 和 Kafka 在不同的场景下各有其优势。RabbitMQ 适用于高可靠性、有高要求子业务时的应用,而 Kafka 更适合处理大数据流,能够扩展以处理需要处理的数据的增长,同时保证高吞吐量和低延迟。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值