Kafka相关知识点总结

最新推荐文章于 2024-06-03 09:31:03 发布

易逑实战数据

最新推荐文章于 2024-06-03 09:31:03 发布

阅读量304

点赞数

分类专栏：大数据文章标签： kafka 分布式 java

本文链接：https://blog.csdn.net/hhfhhf12345678/article/details/125193649

版权

大数据专栏收录该内容

26 篇文章 0 订阅

订阅专栏

文章目录

前言
一、Kafka是什么
二、Kafka用来做什么
三、Kafka的优势是什么
四、为什么用Kafka
五.Kafka解决了什么问题
总结

前言

Kafka也是在Java以及数据开发中经常应用的一个组件，在我们的印象里，它总是和redis联系在一起，那么它主要解决了哪些问题呢？现在就由我们来对它进行相应的探索。

一、Kafka是什么

Apache kafka is a distributed streaming platform，即官方定义 kafka 是一个分布式流式计算平台。而在大部分企业开发人员中，都是把 kafka 当成消息系统使用，即它是一个分布式消息队列，很少会使用 kafka 的流式计算。它有四个关键概念：
topic
　　kafka 把收到的消息按 topic 进行分类，因此可以理解为 topic 是一种类别
producer
往 kafka 发送消息的用户
consumer
　　接收 kafka 消息的用户
borker
　　kafka 集群可以由多个 kafka 实例组成，每个实例（server）称为 broker
无论是 kafka broker 本身，还是 producer 或者 consumer，都依赖于 zookeeper 集群保存一些 meta 信息，保证系统可用性，以及使用 zookeeper 的选举机制。

二、Kafka用来做什么

一般可用于：
1.流量消峰
2.系统解耦
3.异步处理

三、Kafka的优势是什么

优点：
1、高吞吐量、低延迟
kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒；
2、高拓展性：
kafka集群支持热扩展；
3、持久性、可靠性
消息被持久化到本地磁盘，并且支持数据备份防止数据丢失；
4、容错性
允许集群中节点故障（若副本数量为n,则允许n-1个节点故障）；
5、高并发：
支持数千个客户端同时读写。
缺点：
1、需要解决消息重复消费、有序消费、及消息积压、消息丢失等问题。
2、kafka需要zookeeper作为支持，部署和维护成本比一般的MQ更高。

四、为什么用Kafka

缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，下游服务就可以按照自己的节奏进行慢慢处理。
解耦和扩展性：项目开始的时候，并不能确定具体需求。消息队列可以作为一个接口层，解耦重要的业务流程。只需要遵守约定，针对数据编程即可获取扩展能力。
冗余：可以采用一对多的方式，一个生产者发布消息，可以被多个订阅topic的服务消费到，供多个毫无关联的业务使用。
健壮性：消息队列可以堆积请求，所以消费端业务即使短时间死掉，也不会影响主要业务的正常进行。
异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

五.Kafka解决了什么问题

1.消息
kafka更好的替换传统的消息系统，消息系统被用于各种场景，与大多数消息系统比较kafka有更好的吞吐量内置分区，副本和故障转移，这有利于处理大规模的消息。
根据我们的经验消息往往用于较低的吞吐量，但需要低的端到端延迟并需要提供强大的耐用性的保证。在这一领域的kafka比得上传统的消息系统，如ActiveMQ或RabbitMQ等。
2. 网站活动追踪
kafka原本的使用场景是用户的活动追踪，网站的活动（网页游览，搜索或其他用户的操作信息）发布到不同的话题中心，这些消息可实时处理实时监测也可加载到Hadoop或离线处理数据仓库。
3. 指标
kafka也常常用于监测数据，分布式应用程序生成的统计数据集中聚合。
4. 日志聚合
许多人使用Kafka作为日志聚合解决方案的替代品。日志聚合通常从服务器中收集物理日志文件，并将它们放在中央位置（可能是文件服务器或HDFS）进行处理。Kafka抽象出文件的细节，并将日志或事件数据更清晰地抽象为消息流。这允许更低延迟的处理并更容易支持多个数据源和分布式数据消费。
5. 流处理
kafka中消息处理一般包含多个阶段。其中原始输入数据是从kafka主题消费的，然后汇总，丰富，或者以其他的方式处理转化为新主题，例如，一个推荐新闻文章，文章内容可能从“articles”主题获取；然后进一步处理内容，得到一个处理后的新内容，最后推荐给用户。这种处理是基于单个主题的实时数据流。从0.10.0.0开始，轻量，但功能强大的流处理，就可以这样进行数据处理了。
除了Kafka Streams还有ApacheStorm和Apache Samza可选择。
6. 事件采集
事件采集是一种应用程序的设计风格，其中状态的变化根据时间的顺序记录下来，kafka支持这种非常大的存储日志数据的场景。
7. 提交日志
kafka可以作为一种分布式的外部日志，可帮助节点之间复制数据，并作为失败的节点来恢复数据重新同步，kafka的日志压缩功能很好的支持这种用法，这种用法类似于Apacha BookKeeper项目。

总结

Kafka是一个重要的消息队列，主要包含producer，consumer以及broker，它有许多重要的作用，一般是用于数据流量的缓冲以及数据的消峰，以此同时也能对数据进行解耦。它与redis的区别在于，redis的主要作业是用以内存数据库，只是它提供的数据类型list可以用作消息队列而已，而kafka本身就是消息队列，消息的存储模型只是其中的一个环节，还提供了消息ACK和队列容量、消费速率等消息相关的功能，更加完善。