kafka学习一：概论

最新推荐文章于 2023-02-15 16:12:18 发布

六十三吖

最新推荐文章于 2023-02-15 16:12:18 发布

阅读量177

点赞数

分类专栏： Kafka学习

大数据之kafka 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

Kafka学习

4 篇文章 0 订阅

订阅专栏

介绍

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

核心概念

Broker
一个独立的 Kafka 服务器被称为 bro胎儿 broker 接收来自生产者的消息，为消息设置偏移
量，并提交消息到磁盘保存。 broker 为消费者提供服务，对读取分区的请求作出响应，返
回已经提交到磁盘上的消息。根据特定的硬件及其性能特征，单个 broker 可以轻松处理数
千个分区以及每秒百万级的消息量。
Topic
即话题，生产或消费流记录（消息），都需要指定特定的 Topic，一般将同一业务数据、同一类型数据写入同一 Topic。
Partition
topic下的大数据分散在各个分区中
（注：Topic 是逻辑概念，Partition 是物理概念，每个分区对应于一个物理文件夹，存储分区数据及索引文件）
Producer
即生产者，向 Broker 某一Topic主题发送数据的客户端。
Consumer
即消费者，消费指定 Topic 下的数据。
Consumer Group
即消费者组，每个 Consumer 隶属于某个特定的 Consumer Group，Producer 将一条消息发送给所有的 Consumer Group，但最终只能被 Consumer Group 下的唯一的一个 Consumer 消费。
（注：分组的目的是为了加快读取速度）
Replication
即副本，一个 Partition 分区可以有多个副本，存在不同的 Broker 中，提供容错保证。
Kafka的特性
高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失
容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）
高并发：支持数千个客户端同时读写

Kafka的使用场景

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。
消息系统：解耦和生产者和消费者、缓存消息等。
用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。
流式处理：比如spark streaming和storm 事件源