Spark定制班第32课:Kafka原理内幕和集群构建与测试实战

55 篇文章 0 订阅
55 篇文章 0 订阅
本期内容:
1. Kafka原理内幕
2. Kafka集群实战

Spark Streaming是处理层面的,Kafka相当于流程控制和数据控制的层面。
Kafka就是消息中间件。分布式的,可以扩展规模。可以对消息持久化。默认是7天,意思是,不管是否已消费,消息7天之后会被删除。有队列方式,也有发布者和订阅者方式。事务方面,kafka不行。是个粘合器,打破信息孤岛。
Kafka观点:数据时时刻刻是流动的。基于内核之间进行数据的交换,虽然数据在磁盘中,数据是近乎内存的速度。数据进出没有必要放入内存空间。
Kafka也可以是监控机器终端的CPU、内存等各种状况数据的消息中间件。理论上讲可以存储任意规模的数据。
可以处理离线、在线的数据。
Kafka不处理数据,没必要把数据放在Application的buffer上,而是基于内存的读取和传输,通过内核进行Socket传输。
Kafka是进行Topic消息分组。consumer基于Topic去获取数据。sendfile是文件数据交互的机制。重要的概念有上下文。
push、pull方式。使用Zookeeper注册和管理broker和consumer。
消息的一致性。Kafka中数据没有id,有offset。如果consumer出错,重新启动consumer,就可以从最近的offset开始处理。kafka自己保存offset。kafka无状态,数据是可以重复消费的。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值