kafka
青云游子
大数据开发工程师
展开
-
kafka-事务
事务属性实现前提是幂等性,即在配置事务属性transaction id时,必须还得配置幂等性;但是幂等性是可以独立使用的,不需要依赖事务属性。原创 2023-08-05 17:23:02 · 1240 阅读 · 0 评论 -
kafka-保证数据不重复-生产者开启幂等性和事务的作用?
1.生产者开启幂等性为什么能去重原创 2023-08-05 16:38:18 · 1639 阅读 · 0 评论 -
Kafka-副本数量设置
ISR 机制的另外一个相关参数是, 可以在 broker 或者主题级别进行配置,代表 ISR 列表中至少要有几个可用副本。这里假设设置为 2,那么当可用副本数量小于该值时,就认为整个分区处于不可用状态。此时客户端再向分区写入数据时候就会抛出异常。原创 2023-08-05 14:47:10 · 4151 阅读 · 1 评论 -
Kafka-Broker工作流程
kafka集群在启动时,会将每个broker节点注册到zookeeper中,每个broker节点都有一个controller,哪个controller先在zookeeper中注册,哪个controller就负责监听brokers节点变化,当有分区的leader挂掉时,controller会监听到节点变化,然后去zookeeper中获取isr,选举新的leader,选举的规则是:在isr中存活为前提,按照AR中排在前面的优先。原创 2023-08-02 17:02:04 · 1215 阅读 · 0 评论 -
Kafka-消费者组消费流程
消费者向kafka集群发送消费请求,消费者客户端默认每次从kafka集群拉取50M数据,放到缓冲队列中,消费者从缓冲队列中每次拉取500条数据进行消费。原创 2023-08-02 16:00:46 · 1068 阅读 · 0 评论 -
离线数仓中,为什么用两个flume,一个kafka
实时数仓中,为什么没有零点漂移问题? 因为flink直接取的事件时间 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢? 因为需要削峰填谷 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗? 不行 kafka可以削峰填谷 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法原创 2023-08-02 14:34:54 · 2504 阅读 · 0 评论 -
kafka-主题过多会有什么危害?
会造成分区过多,IO压力大 topic太多出现too many file,打开文件过多 partition过多在controller选举和controller重新选举partition leader的耗时会大大增加,造成kafka不可用的时间延长原创 2023-08-02 14:13:59 · 236 阅读 · 0 评论