深入浅出系列之 -- kafka介绍

最新推荐文章于 2023-12-04 21:21:04 发布

流一恩典

最新推荐文章于 2023-12-04 21:21:04 发布

阅读量812

点赞数

分类专栏： kafka篇文章标签： kafka

本文链接：https://blog.csdn.net/czz1141979570/article/details/98723163

版权

Apache Kafka是一个高性能、分布式的消息系统，用于日志收集、用户活动跟踪、运营指标监控和流式处理等场景。Kafka的特点包括高吞吐量、低延迟、可扩展性、持久性和容错性。其架构包含Producer、Consumer、Topic、Consumer Group、Broker、Partition和Offset。Kafka使用文件存储消息，通过副本实现数据冗余和负载均衡。消息传输一致性有三种模式：最多1次、最少1次和恰好1次。Kafka的副本管理策略保证了数据的可用性，而Leader的选择和副本同步策略确保了数据的一致性。

摘要由CSDN通过智能技术生成

前言：

官网解释：

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

个人总结：

Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。

Kafka最初是由LinkedIn公司开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

无论是kafka集群，还是consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性。

Kafka的特性:

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。

可扩展性：kafka集群支持热扩展，因为kafka解耦了整个处理消息的过程，所以增大消息入队和处理的频率是很容易的

持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失，有leader和follow之分

容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）

高并发：支持数千个客户端同时读写

顺序保证：在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。（Kafka保证一个Partition内的消息的有序性）

Kafka的使用场景：

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。

消息系统：解耦和生产者和消费者、缓存消息等。

用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。

运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。

流式处理：比如spark streaming和storm，及当前流行的flink。