Kafka是大数据开发的支撑点，是不可忽视的重点内容!

最新推荐文章于 2022-03-14 00:35:30 发布

海牛-大数据

最新推荐文章于 2022-03-14 00:35:30 发布

阅读量271

点赞数

文章标签： kafka 大数据大数据kafka

随着大数据逐步的“接地气”，各种企业开始纷纷借力大数据来助力自己商业的发展，而与此同时，一大批的求职者也纷纷的开始进入到大数据开发领域，以期找到自己存在的价值，而在学习的过程中以及实际应用中，我们不难发现kafka的作用和价值越来越大。

Kafka在企业的发展乃至各个行业的应用，都决定了其在未来必将受到更多的关注，那么对于企业和个人而言，该如何更加详细的了解kafka的概念及其影响力呢？

首先、关于kafka的概念

Kafka原本开发自 LinkedIn，是一个消息系统，用作 LinkedIn 的活动流（Activity Stream）和运营数据处理管道（Pipeline）的基础。现在它已被多家公司作为多种类型的数据管道和消息系统使用。Kafka是一个高吞吐量、分布式的发布—订阅消息系统。

其次、了解kafka的相关术语

1、Broker：Kafka 集群包含一个或多个服务器，这种服务器被称为 broker。

2、Topic：每条发布到 Kafka 集群的消息都有一个类别，这个类别被称为 Topic。（物理上不同 Topic 的消息分开存储，逻辑上一个 Topic 的消息虽然保存于一个或多个 broker 上，但用户只需指定消息的 Topic 即可生产或消费数据而不必关心数据存于何处）。

3、Partition：Partition 是物理上的概念，每个 Topic 包含一个或多个 Partition。

4、Producer：负责发布消息到 Kafka broker。

5、Consumer：消息消费者，向 Kafka broker 读取消息的客户端。

6、Consumer Group：每个 Consumer 属于一个特定的 Consumer Group（可为每个 Consumer 指定 group name，若不指定 group name 则属于默认的 group）。

最后、我们简单了解一下kafka的特性

可扩展性、数据分区、低延迟、处理大量不同消费者的能力是kafka最显著的特性。此外Kafka 让数据存入 Hadoop 集群变得非常简单。当拥有多个数据来源和多个数据目的地时，为每一个来源和目的地配对地编写一个单独的数据通道会导致混乱发生。Kafka 帮助 LinkedIn 规范了数据通道格式，并且允许每一个系统获取数据和写入数据各一次，这样极大地减少数据通道的复杂性和操作耗时。

Kafka在如今的大数据应用当中扮演着愈加重要的角色，我们这里只是做一个简单的分享，希望能够帮助大数据小白有个浅显的认知。