Kafka相关知识点总结


前言

Kafka也是在Java以及数据开发中经常应用的一个组件,在我们的印象里,它总是和redis联系在一起,那么它主要解决了哪些问题呢?现在就由我们来对它进行相应的探索。

一、Kafka是什么

Apache kafka is a distributed streaming platform,即官方定义 kafka 是一个分布式流式计算平台。而在大部分企业开发人员中,都是把 kafka 当成消息系统使用,即它是一个分布式消息队列,很少会使用 kafka 的流式计算。它有四个关键概念:
topic
  kafka 把收到的消息按 topic 进行分类,因此可以理解为 topic 是一种类别
producer
往 kafka 发送消息的用户
consumer
  接收 kafka 消息的用户
borker
  kafka 集群可以由多个 kafka 实例组成,每个实例(server)称为 broker
无论是 kafka broker 本身,还是 producer 或者 consumer,都依赖于 zookeeper 集群保存一些 meta 信息,保证系统可用性,以及使用 zookeeper 的选举机制。

二、Kafka用来做什么

一般可用于:
1.流量消峰
2.系统解耦
3.异步处理

三、Kafka的优势是什么

优点:
1、高吞吐量、低延迟
kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒;
2、高拓展性:
kafka集群支持热扩展;
3、持久性、可靠性
消息被持久化到本地磁盘,并且支持数据备份防止数据丢失;
4、 容错性
允许集群中节点故障(若副本数量为n,则允许n-1个节点故障);
5、 高并发:
支持数千个客户端同时读写。
缺点:
1、需要解决消息重复消费、有序消费、及消息积压、消息丢失等问题。
2、kafka需要zookeeper作为支持,部署和维护成本比一般的MQ更高。

四、为什么用Kafka

缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。
解耦和扩展性:项目开始的时候,并不能确定具体需求。消息队列可以作为一个接口层,解耦重要的业务流程。只需要遵守约定,针对数据编程即可获取扩展能力。
冗余:可以采用一对多的方式,一个生产者发布消息,可以被多个订阅topic的服务消费到,供多个毫无关联的业务使用。
健壮性:消息队列可以堆积请求,所以消费端业务即使短时间死掉,也不会影响主要业务的正常进行。
异步通信:很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。

五.Kafka解决了什么问题

1.消息
kafka更好的替换传统的消息系统,消息系统被用于各种场景,与大多数消息系统比较kafka有更好的吞吐量内置分区,副本和故障转移,这有利于处理大规模的消息。
根据我们的经验消息往往用于较低的吞吐量,但需要低的端到端延迟并需要提供强大的耐用性的保证。在这一领域的kafka比得上传统的消息系统,如ActiveMQ或RabbitMQ等。
2. 网站活动追踪
kafka原本的使用场景是用户的活动追踪,网站的活动(网页游览,搜索或其他用户的操作信息)发布到不同的话题中心,这些消息可实时处理实时监测也可加载到Hadoop或离线处理数据仓库。
3. 指标
kafka也常常用于监测数据,分布式应用程序生成的统计数据集中聚合。
4. 日志聚合
许多人使用Kafka作为日志聚合解决方案的替代品。日志聚合通常从服务器中收集物理日志文件,并将它们放在中央位置(可能是文件服务器或HDFS)进行处理。Kafka抽象出文件的细节,并将日志或事件数据更清晰地抽象为消息流。这允许更低延迟的处理并更容易支持多个数据源和分布式数据消费。
5. 流处理
kafka中消息处理一般包含多个阶段。其中原始输入数据是从kafka主题消费的,然后汇总,丰富,或者以其他的方式处理转化为新主题,例如,一个推荐新闻文章,文章内容可能从“articles”主题获取;然后进一步处理内容,得到一个处理后的新内容,最后推荐给用户。这种处理是基于单个主题的实时数据流。从0.10.0.0开始,轻量,但功能强大的流处理,就可以这样进行数据处理了。
除了Kafka Streams还有ApacheStorm和Apache Samza可选择。
6. 事件采集
事件采集是一种应用程序的设计风格,其中状态的变化根据时间的顺序记录下来,kafka支持这种非常大的存储日志数据的场景。
7. 提交日志
kafka可以作为一种分布式的外部日志,可帮助节点之间复制数据,并作为失败的节点来恢复数据重新同步,kafka的日志压缩功能很好的支持这种用法,这种用法类似于Apacha BookKeeper项目。

总结

Kafka是一个重要的消息队列,主要包含producer,consumer以及broker,它有许多重要的作用,一般是用于数据流量的缓冲以及数据的消峰,以此同时也能对数据进行解耦。它与redis的区别在于,redis的主要作业是用以内存数据库,只是它提供的数据类型list可以用作消息队列而已,而kafka本身就是消息队列,消息的存储模型只是其中的一个环节,还提供了消息ACK和队列容量、消费速率等消息相关的功能,更加完善。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值