Kafka 设计与原理详解(一)

最新推荐文章于 2024-07-11 03:29:05 发布

码农老K

最新推荐文章于 2024-07-11 03:29:05 发布

阅读量67

点赞数

文章标签：网络大数据分布式 hadoop 数据库

本文链接：https://blog.csdn.net/lvlei19911108/article/details/115755535

版权

一、Kafka简介

本文综合了我之前写的kafka相关文章，可作为一个全面了解学习kafka的培训学习资料。

转载请注明出处 : 本文链接(http://blog.csdn.net/suifeng3051/article/details/48053965)

1.1 背景历史

当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：

如何收集这些巨大的信息

如何分析它

如何及时做到如上两点

以上几个挑战形成了一个业务需求模型，即生产者生产(produce)各种信息，消费者消费(consume)(处理分析)这些信息，而在生产者与消费者之间，需要一个沟通两者的桥梁-消息系统。从一个微观层面来说，这种需求也可理解为不同的系统之间如何传递消息。

1.2 Kafka诞生

Kafka由linked-in开源

kafka-即是解决上述这类问题的一个框架，它实现了生产者和消费者之间的无缝连接。

kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)

1.3 Kafka现在

Apache kafka 是一个分布式的基于push-subscribe的消息系统，它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统，作为Hadoop生态系统的一部分，被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎。

二、Kafka技术概览

2.1 Kafka的特性

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒

可扩展性：kafka集群支持热扩展

持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

容错性：允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)

高并发：支持数千个客户端同时读写

2.2 Kafka一些重要设计思想

下面介绍先大体介绍一下Kafka的主要设计思想，可以让相关人员在短时间内了解到kafka相关特性，如果想深入研究，后面会对其中每一个特性都做详细介绍。

Consumergroup：各个consumer可以组成一个组，每个消息只能被组中的一个consumer消费，如果一个消息可以被多个consumer消费的话，那么这些consumer必须在不同的组。

消息状态：在Kafka中，消息的状态被保存在consumer中，broker不会关心哪个消息被消费了被谁消费了，只记录一个offset值(指向partition中下一个要被消费的消息位置)，这就意味着如果consumer处理不好的话，broker上的一个消息可能会被消费多次。

消息持久化：Kafka中会把消息持久化到本地文件系统中，并且保持极高的效率。

消息有效期：Kafka会长久保留其中的消息，以便consumer可以多次消费，当然其中很多细节是可配置的。

批量发送：Kafka支持以消息集合为单位进行批量发送，以提高push效率。

push-and-pull: Kafka中的Producer和consumer采用的是push-and-pull模式，即Producer只管向broker push消息，consumer只管从broker pull消息，两者对消息的生产和消费是异步的。

Kafka集群中broker之间的关系：不是主从关系，各个broker在集群中地位一样，我们可以随意的增加或删除任何一个broker节点。

负载均衡方面： Kafka提供了一个 metadata API来管理broker之间的负载(对Kafka0.8.x而言，对于0.7.x主要靠zookeeper来实现负载均衡)。

同步异步：Producer采用异步push方式，极大提高Kafka系统的吞吐率(可以通过参数控制是采用同步还是异步方式)。

分区机制partition：Kafka的broker端支持消息分区，Producer可以决定把消息发到哪个分区，在一个分区中消息的顺序就是Producer发送消息的顺序，一个主题中可以有多个分区，具体分区的数量是可配置的。分区的意义很重大，后面的内容会逐渐体现。

离线数据装载：Kafka由于对可拓展的数据持久化的支持，它也非常适合向Hadoop或者数据仓库中进行数据装载。

插件支持：现在不少活跃的社区已经开发出不少插件来拓展Kafka的功能，如用来配合Storm、Hadoop、flume相关的插件。

2.3 kafka 应用场景

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。

消息系统：解耦和生产者和消费者、缓存消息等。

用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中&#x

最低0.47元/天解锁文章

码农老K

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Kafka 设计与原理详解(一)

一、Kafka简介本文综合了我之前写的kafka相关文章，可作为一个全面了解学习kafka的培训学习资料。转载请注明出处 :本文链接(http://blog.csdn.net/suifeng3051/article/details/48053965)1.1 背景历史当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：如何收集这些...
复制链接

扫一扫